CN114155554B - 一种基于Transformer的相机域适应行人重识别方法 - Google Patents
一种基于Transformer的相机域适应行人重识别方法Info
- Publication number
- CN114155554B CN114155554B CN202111463655.9A CN202111463655A CN114155554B CN 114155554 B CN114155554 B CN 114155554B CN 202111463655 A CN202111463655 A CN 202111463655A CN 114155554 B CN114155554 B CN 114155554B
- Authority
- CN
- China
- Prior art keywords
- image
- encoder
- pedestrian
- camera
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于Transformer的相机域适应行人重识别方法,包括:用交叉补丁编码器将输入图像编码为向量序列;将向量序列输入到Transformer编码器中学习图像特征,利用图像特征构造身份信息损失来优化网络;把交叉补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的特征输入到鉴别器中判断相机类别,在此基础上构造相机分类损失和相机域适应损失来分别优化鉴别器和生成器;用生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。本发明方法准确率高,可以有效解决行人重识别任务中多相机采集图像所带来的图像风格差异问题。
Description
技术领域
本发明属于计算机视觉和图像检索领域,具体涉及一种基于Transformer的相机域适应行人重识别方法。
背景技术
行人重识别是从大范围图像集中检索特定行人的技术。该技术在智能视频监控、智能安防等领域有着重要的现实意义。近年来,行人重识别技术得到了快速的发展,但是图像在多个相机之间不受控制的外观变化使得行人重识别仍然是一个具有挑战的任务。在实际的重识别场景中,使用不同的相机拍摄到的图像往往会存在光照、背景和分辨率上的差异,这些差异会对重识别的性能产生不良影响。目前,已经有相当数量的生成模型试图处理相机风格的差异,这些方法对相机风格差异的适应主要体现在数据增强上。生成不同相机风格图像的过程相对繁复,而且数据增强过程相对独立于特征表示学习,所以数据增强过程可能会引入不必要的误差。因此,本发明设计了一种对抗损失来从度量学习的角度解决相机风格差异的问题。
近年来,已经有研究表明卷积神经网络保留细粒度信息和学习长距离依赖关系的能力并不理想,但是绝大多数重识别方法仍然选择用深度卷积神经网络来提取图像特征。最近,Transformer作为一种完全不依赖卷积操作的网络结构,在计算机视觉领域越来越受欢迎,所以探索一种基于Transformer结构的行人重识别方法是很有意义的。
发明内容
针对上述问题,本发明从度量学习的角度设计了一种基于Transformer的对抗学习框架来解决行人图像在多相机间的差异问题,从而有效提高了行人重识别的准确率。
为达到上述目的,本发明的技术方案如下:
一种基于Transformer的相机域适应行人重识别方法,包括以下步骤:
(1)将输入行人图像分解为固定分辨率的图像补丁,图像补丁和与之对应的交叉图像块被交叉补丁编码器编码得到向量序列;
(2)将向量序列输入到Transformer编码器中学习图像的特征向量,利用学习到的图像特征构造身份分类损失和三元组损失来优化交叉补丁编码器和Transformer编码器;
(3)把交叉补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别,在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器;
(4)用训练完成的生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。
本发明提出的框架由一个交叉补丁编码器、一个Transformer编码器和一个鉴别器组成。交叉补丁编码器将输入的行人图像编码为向量序列,Transformer编码器从向量序列中学习特征表示,鉴别器被用来判断特征所属的相机类别。在训练过程中,交叉补丁编码器和Transformer编码器被串联在一起作为一个特征生成器G,特征生成器和鉴别器交替更新直到模型收敛。
步骤(1)中,用线性变换将固定分辨率的图像补丁映射成固定维度的向量同时用深度可分离卷积将与图像补丁相对应的交叉图像块映射成与相同维度的向量,最后编码器产生的向量ei为:
其中,i表示行人图像的序号,j表示图像补丁的序号,和分别表示横向和纵向图像块映射的向量,pi是含有位置信息的位置向量。
步骤(2)中,用于优化交叉补丁编码器和Transformer编码器的身份信息损失函数为:
表示身份分类损失函数,公式如下:
其中p(yi|xi)表示输入图像xi属于身份类yi的预测概率。同时,为了加强类内聚合和类间分离,在训练过程中引入了三元组损失函数公式如下:
其中m表示余量,G(·)表示Transformer编码器输出的图像特征,d代表两个特征间的距离,xp,xn分别是参照样本xi的正样本和负样本。
步骤(3)中,鉴别器被用来鉴别行人特征的相机类别,而生成器尽可能地生成难以被鉴别器鉴别的行人特征。用于优化鉴别器的相机分类损失函数为:
其中,qi表示行人图像xi的正确相机类别,p(qi|xi)表示行人图像xi属于相机类别qi的概率,G(xi)代表生成器提取的图像特征,D(G(xi))[j]表示鉴别器输出的关于相机类别j的预测得分,K表示总的相机类别个数。用于优化生成器的相机域适应损失函数为:
其中,p(g|xi)表示行人图像xi属于相机类别g的概率,δ(·)表示狄拉克δ函数。在生成器和鉴别器的训练过程中,固定其中一方的参数,更新另一方的参数,交替迭代,直到模型收敛。具体训练过程可表示为:
其中,θG和θD分别表示生成器和鉴别器的参数变量,和表示固定住的网络参数,λ表示调整两个损失函数贡献的超参数。
本发明的有益效果如下:
(1)本发明把Transformer作为主干网络来提取行人图像的有效特征,整个主干网络没有用到池化和卷积操作,使得本发明的方法克服了基于卷积神经网络方法的局限性。
(2)本发明设计了一种新型的交叉补丁编码器,这种编码器以较低的计算代价从行人图像中获取了更加有效的向量序列。
(3)本发明的方法不依赖任何数据增强的技术,可以直接从原始数据集中学习对相机风格变化具有鲁棒性的行人特征。
附图说明
图1为本发明一种基于Transformer的相机域适应行人重识别方法的流程示意图;
图2为交叉补丁编码器的结构示意图;
图3为本发明一种基于Transformer的相机域适应行人重识别系统的框架示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,需要指出的是,下述具体实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明的一种基于Transformer的相机域适应行人重识别方法,包括以下步骤:
步骤1:用交叉补丁编码器将输入图像编码为向量序列;
本发明中的交叉补丁编码器的结构如图2所示。
给定一个训练数据集其中,N1表示数据集中行人图像的总数,yi和qi分别表示行人图像xi的身份标签和相机种类标签。首先,所有行人图像被调整成H×W的固定尺寸,然后行人图像被分为N2个不重叠的尺寸为I×I的图像补丁其中,表示第i个行人图像的第j块补丁,这些图像补丁被映射成M维的向量公式如下:
其中FP代表线性映射,i表示行人图像序号,j表示补丁序号。在此基础上,交叉补丁编码器将与图像补丁相对应的交叉图像块映射成与相同维度的向量
其中表示尺寸为I×W的水平图像块,表示尺寸为H×I的垂直图像块,表示水平向量,表示垂直向量,Fh和Fv分别代表应用在水平图像块和垂直图像块的深度可分离卷积。最后交叉补丁编码器输出的向量还加入了位置向量pi,用公式表示为:
本实施例中输入图像的固定尺寸为256×128,图像补丁的尺寸为16×16,M设置为768。
步骤2:将向量序列输入到Transformer编码器中学习图像的特征向量,利用学习到的图像特征构造身份分类损失和三元组损失来优化交叉补丁编码器和Transformer编码器;
如图3所示,在向量序列输入到Transformer编码器之前,一个可训练的分类向量被附加在向量序列上,因此Transformer编码器处理输入的(N2+1)个向量。Transformer编码器的结构使得信息在向量间相互传播,最终只有与分类向量相对应的图像特征被用来构造构造身份分类损失和三元组损失。其中,用于优化交叉补丁编码器和Transformer编码器的身份信息损失函数为:
表示身份分类损失函数,公式如下:
其中p(yi|xi)表示输入图像xi属于身份类yi的预测概率,预测概率通过接在特征向量之后的分类器得到。同时,为了加强类内聚合和类间分离,在训练过程中引入了三元组损失函数公式如下:
其中m表示余量,G(·)表示Transformer编码器输出的图像特征,d代表两个特征间的距离,xp,xn分别表示参照样本xi在一批次训练样本中的正样本和负样本。
本实施例选择ViT-Base作为Transformer编码器来提取行人特征向量,在开始训练之前,ViT-Base在ImageNet-21K和ImageNet-1K两个数据集上进行预训练。
步骤3:把交叉补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别,在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器;
如图3所示,鉴别器被用来鉴别行人特征的相机类别,而生成器尽可能地生成难以被鉴别器鉴别的行人特征。用于优化鉴别器的相机分类损失函数可表示为:
其中,qi表示行人图像xi的正确相机类别,p(qi|xi)表示行人图像xi属于相机类别qi的概率,G(xi)代表生成器提取的图像特征,D(G(xi))[j]表示鉴别器输出的关于相机类别j的预测得分,K表示总的相机类别个数。用于优化生成器的相机域适应损失函数可表示为:
其中,p(g|xi)表示行人图像xi属于相机类别g的概率,δ(·)表示狄拉克δ函数。在生成器和鉴别器的训练过程中,固定其中一方的参数,更新另一方的参数,交替迭代,直到模型收敛。具体训练过程可表示为:
其中,θG和θD分别表示生成器和鉴别器的参数变量,和表示固定住的网络参数,λ表示调整两个损失函数贡献的超参数。
在本实施例中,鉴别器是一个浅层全连接网络,相机类别个数K为15,学习率为0.008、动量系数为0.9、权值衰减为0.0001的SGD优化器被应用于生成器,学习率为0.0003的Adam优化器被应用于鉴别器。
步骤4:用训练完成的生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。
为了验证本发明的有效性,本发明在MSMT17数据集上进行实验。MSMT17数据集由15台像机拍摄的4101个行人的126441张图像组成,其中32621张行人图像用于训练,另外93820张行人图像用于测试。
测试阶段,累计匹配特性指标(CMC)和平均准确率(mAP)被用于定量评估模型的性能。最终本发明的方法在MSMT17数据集上取得了62.9%的Rank-1准确率和83.4%的平均准确率。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。
Claims (3)
1.一种基于Transformer的相机域适应行人重识别方法,其特征在于,包括以下步骤:
(1)将输入行人图像分解为固定分辨率的图像补丁,图像补丁和与之对应的交叉图像块被交叉补丁编码器编码得到向量序列;
(2)将向量序列输入到Transformer编码器中学习图像的特征向量,利用学习到的图像特征构造身份分类损失和三元组损失来优化交叉补丁编码器和Transformer编码器;
(3)把补丁编码器和Transformer编码器共同视为一个特征生成器,将生成器生成的图像特征输入到鉴别器中判断此特征的相机类别,在此基础上构造相机分类损失和相机域适应损失来分别交替优化鉴别器和生成器;
用于优化鉴别器的相机分类损失函数为:
其中,qi表示行人图像xi的正确相机类别,p(qi|xi)表示行人图像xi属于相机类别qi的概率,G(xi)代表生成器提取的图像特征,D(G(xi))[j]表示鉴别器输出的关于相机类别j的预测得分,K表示总的相机类别个数;用于优化生成器的相机域适应损失函数为:
其中,p(g|xi)表示行人图像xi属于相机类别g的概率,δ(·)表示狄拉克δ函数;在生成器和鉴别器的训练过程中,固定其中一方的参数,更新另一方的参数,交替迭代,直到模型收敛;具体训练过程为:
其中,θG和θD分别表示生成器和鉴别器的参数变量,和表示固定住的网络参数,λ表示调整两个损失函数贡献的超参数;是用于优化交叉补丁编码器和Transformer编码器的身份信息损失函数;
(4)用训练完成的生成器提取行人图像的特征向量,计算待查询图像的特征向量与每张图像的特征向量之间的欧式距离,按照距离由小到大进行排序,选择排序最靠前的图像的行人身份作为识别结果。
2.根据权利要求1所述的一种基于Transformer的相机域适应行人重识别方法,其特征在于,步骤(1)中,用线性变换将固定分辨率的图像补丁映射成固定维度的向量同时用深度可分离卷积将与图像补丁相对应的交叉图像块映射成与相同维度的向量,最后编码器产生的向量ei为:
其中,i表示行人图像的序号,j表示图像补丁的序号,和分别表示对应横向和纵向图像块映射的向量,pi是含有位置信息的位置向量。
3.根据权利要求1所述的一种基于Transformer的相机域适应行人重识别方法,其特征在于,步骤(2)中,用于优化补丁编码器和Transformer编码器的身份信息损失函数为:
其中,表示身份分类损失函数,表示三元组损失函数。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111463655.9A CN114155554B (zh) | 2021-12-02 | 2021-12-02 | 一种基于Transformer的相机域适应行人重识别方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111463655.9A CN114155554B (zh) | 2021-12-02 | 2021-12-02 | 一种基于Transformer的相机域适应行人重识别方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN114155554A CN114155554A (zh) | 2022-03-08 |
| CN114155554B true CN114155554B (zh) | 2025-07-22 |
Family
ID=80456053
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202111463655.9A Active CN114155554B (zh) | 2021-12-02 | 2021-12-02 | 一种基于Transformer的相机域适应行人重识别方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN114155554B (zh) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114898397B (zh) * | 2022-04-07 | 2025-06-03 | 国网智慧能源交通技术创新中心(苏州)有限公司 | 一种融合ViT的跨模态行人重识别方法及装置 |
| CN114842512B (zh) * | 2022-07-01 | 2022-10-14 | 山东省人工智能研究院 | 基于多特征协同和语义感知的遮挡行人重识别和检索方法 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112149538A (zh) * | 2020-09-14 | 2020-12-29 | 南京邮电大学 | 一种基于多任务学习的行人重识别方法 |
| CN113627266A (zh) * | 2021-07-15 | 2021-11-09 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
-
2021
- 2021-12-02 CN CN202111463655.9A patent/CN114155554B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112149538A (zh) * | 2020-09-14 | 2020-12-29 | 南京邮电大学 | 一种基于多任务学习的行人重识别方法 |
| CN113627266A (zh) * | 2021-07-15 | 2021-11-09 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN114155554A (zh) | 2022-03-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110414462B (zh) | 一种无监督的跨域行人重识别方法及系统 | |
| CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
| CN108960127B (zh) | 基于自适应深度度量学习的遮挡行人重识别方法 | |
| CN110728629B (zh) | 一种用于对抗攻击的图像集增强方法 | |
| CN103605972B (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
| CN110097060B (zh) | 一种面向树干图像的开集识别方法 | |
| CN109443382A (zh) | 基于特征提取与降维神经网络的视觉slam闭环检测方法 | |
| CN108509854B (zh) | 一种基于投影矩阵约束结合判别字典学习的行人再识别方法 | |
| CN109063649B (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
| CN112434655A (zh) | 一种基于自适应置信度图卷积网络的步态识别方法 | |
| CN110516533B (zh) | 一种基于深度度量的行人再辨识方法 | |
| CN111079847A (zh) | 一种基于深度学习的遥感影像自动标注方法 | |
| CN114155554B (zh) | 一种基于Transformer的相机域适应行人重识别方法 | |
| CN111694977A (zh) | 一种基于数据增强的车辆图像检索方法 | |
| CN108960342A (zh) | 基于改进SoftMax损失函数的图像相似度计算方法 | |
| CN118628813A (zh) | 基于可迁移语义知识的无源领域自适应图像识别方法 | |
| CN116543269A (zh) | 基于自监督的跨域小样本细粒度图像识别方法及其模型 | |
| CN114612450A (zh) | 基于数据增广机器视觉的图像检测分割方法、系统、电子设备 | |
| CN112001345B (zh) | 基于特征变换度量网络的少样本人体行为识别方法及系统 | |
| CN115830401B (zh) | 一种小样本图像分类方法 | |
| CN120105182A (zh) | 基于深度图卷积生成对抗网络的起重系统故障诊断方法 | |
| CN118505790B (zh) | 机器人位置识别方法、装置、电子设备及存储介质 | |
| CN112446305B (zh) | 一种基于分类权重等距分布损失模型的行人重识别方法 | |
| CN118505777B (zh) | 一种基于对比学习的图像深度估计方法和系统 | |
| CN114724075A (zh) | 一种基于动量网络和对比学习的行人重识别方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |