CN114155554B

CN114155554B - 一种基于Transformer的相机域适应行人重识别方法

Info

Publication number: CN114155554B
Application number: CN202111463655.9A
Authority: CN
Inventors: 路小波; 冉智丹
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2025-07-22
Anticipated expiration: 2041-12-02
Also published as: CN114155554A

Abstract

本发明公开了一种基于Transformer的相机域适应行人重识别方法，包括：用交叉补丁编码器将输入图像编码为向量序列；将向量序列输入到Transformer编码器中学习图像特征，利用图像特征构造身份信息损失来优化网络；把交叉补丁编码器和Transformer编码器共同视为一个特征生成器，将生成器生成的特征输入到鉴别器中判断相机类别，在此基础上构造相机分类损失和相机域适应损失来分别优化鉴别器和生成器；用生成器提取行人图像的特征向量，计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离，按照距离由小到大进行排序，选择排序最靠前的图像的行人身份作为识别结果。本发明方法准确率高，可以有效解决行人重识别任务中多相机采集图像所带来的图像风格差异问题。

Description

一种基于Transformer的相机域适应行人重识别方法

技术领域

本发明属于计算机视觉和图像检索领域，具体涉及一种基于Transformer的相机域适应行人重识别方法。

背景技术

行人重识别是从大范围图像集中检索特定行人的技术。该技术在智能视频监控、智能安防等领域有着重要的现实意义。近年来，行人重识别技术得到了快速的发展，但是图像在多个相机之间不受控制的外观变化使得行人重识别仍然是一个具有挑战的任务。在实际的重识别场景中，使用不同的相机拍摄到的图像往往会存在光照、背景和分辨率上的差异，这些差异会对重识别的性能产生不良影响。目前，已经有相当数量的生成模型试图处理相机风格的差异，这些方法对相机风格差异的适应主要体现在数据增强上。生成不同相机风格图像的过程相对繁复，而且数据增强过程相对独立于特征表示学习，所以数据增强过程可能会引入不必要的误差。因此，本发明设计了一种对抗损失来从度量学习的角度解决相机风格差异的问题。

近年来，已经有研究表明卷积神经网络保留细粒度信息和学习长距离依赖关系的能力并不理想，但是绝大多数重识别方法仍然选择用深度卷积神经网络来提取图像特征。最近，Transformer作为一种完全不依赖卷积操作的网络结构，在计算机视觉领域越来越受欢迎，所以探索一种基于Transformer结构的行人重识别方法是很有意义的。

发明内容

针对上述问题，本发明从度量学习的角度设计了一种基于Transformer的对抗学习框架来解决行人图像在多相机间的差异问题，从而有效提高了行人重识别的准确率。

为达到上述目的，本发明的技术方案如下：

一种基于Transformer的相机域适应行人重识别方法，包括以下步骤：

(1)将输入行人图像分解为固定分辨率的图像补丁，图像补丁和与之对应的交叉图像块被交叉补丁编码器编码得到向量序列；

(2)将向量序列输入到Transformer编码器中学习图像的特征向量，利用学习到的图像特征构造身份分类损失和三元组损失来优化交叉补丁编码器和Transformer编码器；

(3)把交叉补丁编码器和Transformer编码器共同视为一个特征生成器，将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别，在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器；

(4)用训练完成的生成器提取行人图像的特征向量，计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离，按照距离由小到大进行排序，选择排序最靠前的图像的行人身份作为识别结果。

本发明提出的框架由一个交叉补丁编码器、一个Transformer编码器和一个鉴别器组成。交叉补丁编码器将输入的行人图像编码为向量序列，Transformer编码器从向量序列中学习特征表示，鉴别器被用来判断特征所属的相机类别。在训练过程中，交叉补丁编码器和Transformer编码器被串联在一起作为一个特征生成器G，特征生成器和鉴别器交替更新直到模型收敛。

步骤(1)中，用线性变换将固定分辨率的图像补丁映射成固定维度的向量同时用深度可分离卷积将与图像补丁相对应的交叉图像块映射成与相同维度的向量，最后编码器产生的向量e_i为：

其中，i表示行人图像的序号，j表示图像补丁的序号，和分别表示横向和纵向图像块映射的向量，p_i是含有位置信息的位置向量。

步骤(2)中，用于优化交叉补丁编码器和Transformer编码器的身份信息损失函数为：

表示身份分类损失函数，公式如下：

其中p(y_i|x_i)表示输入图像x_i属于身份类y_i的预测概率。同时，为了加强类内聚合和类间分离，在训练过程中引入了三元组损失函数公式如下：

其中m表示余量，G(·)表示Transformer编码器输出的图像特征，d代表两个特征间的距离，x_p，x_n分别是参照样本x_i的正样本和负样本。

步骤(3)中，鉴别器被用来鉴别行人特征的相机类别，而生成器尽可能地生成难以被鉴别器鉴别的行人特征。用于优化鉴别器的相机分类损失函数为：

其中，q_i表示行人图像x_i的正确相机类别，p(q_i|x_i)表示行人图像x_i属于相机类别q_i的概率，G(x_i)代表生成器提取的图像特征，D(G(x_i))[j]表示鉴别器输出的关于相机类别j的预测得分，K表示总的相机类别个数。用于优化生成器的相机域适应损失函数为：

其中，p(g|x_i)表示行人图像x_i属于相机类别g的概率，δ(·)表示狄拉克δ函数。在生成器和鉴别器的训练过程中，固定其中一方的参数，更新另一方的参数，交替迭代，直到模型收敛。具体训练过程可表示为：

其中，θ_G和θ_D分别表示生成器和鉴别器的参数变量，和表示固定住的网络参数，λ表示调整两个损失函数贡献的超参数。

本发明的有益效果如下：

(1)本发明把Transformer作为主干网络来提取行人图像的有效特征，整个主干网络没有用到池化和卷积操作，使得本发明的方法克服了基于卷积神经网络方法的局限性。

(2)本发明设计了一种新型的交叉补丁编码器，这种编码器以较低的计算代价从行人图像中获取了更加有效的向量序列。

(3)本发明的方法不依赖任何数据增强的技术，可以直接从原始数据集中学习对相机风格变化具有鲁棒性的行人特征。

附图说明

图1为本发明一种基于Transformer的相机域适应行人重识别方法的流程示意图；

图2为交叉补丁编码器的结构示意图；

图3为本发明一种基于Transformer的相机域适应行人重识别系统的框架示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，需要指出的是，下述具体实施例仅用于说明本发明而不用于限制本发明的范围。

如图1所示，本发明的一种基于Transformer的相机域适应行人重识别方法，包括以下步骤：

步骤1：用交叉补丁编码器将输入图像编码为向量序列；

本发明中的交叉补丁编码器的结构如图2所示。

给定一个训练数据集其中，N₁表示数据集中行人图像的总数，y_i和q_i分别表示行人图像x_i的身份标签和相机种类标签。首先，所有行人图像被调整成H×W的固定尺寸，然后行人图像被分为N₂个不重叠的尺寸为I×I的图像补丁其中，表示第i个行人图像的第j块补丁，这些图像补丁被映射成M维的向量公式如下：

其中F_P代表线性映射，i表示行人图像序号，j表示补丁序号。在此基础上，交叉补丁编码器将与图像补丁相对应的交叉图像块映射成与相同维度的向量

其中表示尺寸为I×W的水平图像块,表示尺寸为H×I的垂直图像块，表示水平向量，表示垂直向量，F_h和F_v分别代表应用在水平图像块和垂直图像块的深度可分离卷积。最后交叉补丁编码器输出的向量还加入了位置向量p_i，用公式表示为：

本实施例中输入图像的固定尺寸为256×128，图像补丁的尺寸为16×16，M设置为768。

步骤2：将向量序列输入到Transformer编码器中学习图像的特征向量，利用学习到的图像特征构造身份分类损失和三元组损失来优化交叉补丁编码器和Transformer编码器；

如图3所示，在向量序列输入到Transformer编码器之前，一个可训练的分类向量被附加在向量序列上，因此Transformer编码器处理输入的(N₂+1)个向量。Transformer编码器的结构使得信息在向量间相互传播，最终只有与分类向量相对应的图像特征被用来构造构造身份分类损失和三元组损失。其中，用于优化交叉补丁编码器和Transformer编码器的身份信息损失函数为：

表示身份分类损失函数，公式如下：

其中p(y_i|x_i)表示输入图像x_i属于身份类y_i的预测概率，预测概率通过接在特征向量之后的分类器得到。同时，为了加强类内聚合和类间分离，在训练过程中引入了三元组损失函数公式如下：

其中m表示余量，G(·)表示Transformer编码器输出的图像特征，d代表两个特征间的距离，x_p，x_n分别表示参照样本x_i在一批次训练样本中的正样本和负样本。

本实施例选择ViT-Base作为Transformer编码器来提取行人特征向量，在开始训练之前，ViT-Base在ImageNet-21K和ImageNet-1K两个数据集上进行预训练。

步骤3：把交叉补丁编码器和Transformer编码器共同视为一个特征生成器，将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别，在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器；

如图3所示，鉴别器被用来鉴别行人特征的相机类别，而生成器尽可能地生成难以被鉴别器鉴别的行人特征。用于优化鉴别器的相机分类损失函数可表示为：

其中，q_i表示行人图像x_i的正确相机类别，p(q_i|x_i)表示行人图像x_i属于相机类别q_i的概率，G(x_i)代表生成器提取的图像特征，D(G(x_i))[j]表示鉴别器输出的关于相机类别j的预测得分，K表示总的相机类别个数。用于优化生成器的相机域适应损失函数可表示为：

在本实施例中，鉴别器是一个浅层全连接网络，相机类别个数K为15，学习率为0.008、动量系数为0.9、权值衰减为0.0001的SGD优化器被应用于生成器，学习率为0.0003的Adam优化器被应用于鉴别器。

步骤4：用训练完成的生成器提取行人图像的特征向量，计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离，按照距离由小到大进行排序，选择排序最靠前的图像的行人身份作为识别结果。

为了验证本发明的有效性，本发明在MSMT17数据集上进行实验。MSMT17数据集由15台像机拍摄的4101个行人的126441张图像组成，其中32621张行人图像用于训练，另外93820张行人图像用于测试。

测试阶段，累计匹配特性指标(CMC)和平均准确率(mAP)被用于定量评估模型的性能。最终本发明的方法在MSMT17数据集上取得了62.9％的Rank-1准确率和83.4％的平均准确率。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于Transformer的相机域适应行人重识别方法，其特征在于，包括以下步骤：

(3)把补丁编码器和Transformer编码器共同视为一个特征生成器，将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别，在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器；

用于优化鉴别器的相机分类损失函数为：

其中，q_i表示行人图像x_i的正确相机类别，p(q_i|x_i)表示行人图像x_i属于相机类别q_i的概率，G(x_i)代表生成器提取的图像特征，D(G(x_i))[j]表示鉴别器输出的关于相机类别j的预测得分，K表示总的相机类别个数；用于优化生成器的相机域适应损失函数为：

其中，p(g|x_i)表示行人图像x_i属于相机类别g的概率，δ(·)表示狄拉克δ函数；在生成器和鉴别器的训练过程中，固定其中一方的参数，更新另一方的参数，交替迭代，直到模型收敛；具体训练过程为：

其中，θ_G和θ_D分别表示生成器和鉴别器的参数变量，和表示固定住的网络参数，λ表示调整两个损失函数贡献的超参数；是用于优化交叉补丁编码器和Transformer编码器的身份信息损失函数；

2.根据权利要求1所述的一种基于Transformer的相机域适应行人重识别方法，其特征在于，步骤(1)中，用线性变换将固定分辨率的图像补丁映射成固定维度的向量同时用深度可分离卷积将与图像补丁相对应的交叉图像块映射成与相同维度的向量，最后编码器产生的向量e_i为：

其中，i表示行人图像的序号，j表示图像补丁的序号，和分别表示对应横向和纵向图像块映射的向量，p_i是含有位置信息的位置向量。

3.根据权利要求1所述的一种基于Transformer的相机域适应行人重识别方法，其特征在于，步骤(2)中，用于优化补丁编码器和Transformer编码器的身份信息损失函数为：

其中，表示身份分类损失函数，表示三元组损失函数。