首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于模态间共性语义学习的跨模态行人重识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广西师范大学

摘要:本发明公开了一种基于模态间共性语义学习的跨模态行人重识别方法,包括如下步骤:1)跨模态行人重识别数据集的预处理;2)构建文本语义聚类模块进行语义特征学习;3)构建共性语义协作模块进行语义一致性学习;4)优化基于模态间共性语义学习的跨模态行人重识别网络;5)验证过程。这种方法能有效整合行人图像和文本描述中语义信息,同时采用深入学习和利用视觉与文本间的共性语义弥补两种模态之间的异质性和不对称性对跨模态行人重识别的性能的影响,能效提高跨模态行人重识别的精度和性能。

主权项:1.一种基于模态间共性语义学习的跨模态行人重识别方法,其特征在于,包括如下步骤:1跨模态行人重识别数据集的预处理:读取数据集中图像,先采用水平翻转、竖直翻转、光照变换对图像数据进行数据增强得到一批原始图像I={i1,i2,...,iB},I∈R{W,H,3},其中ii表示第i张行人图像,B为小批次行人图像的总数,然后采用SwinTransformer作为图像编码器,原始图像I经过编码得到特征向量X={x1,x2,...,xB}和4维特征图Fs={f1,f2,...,fN},其中xi={vcls,v1,...,vN},vcls是[CLS]标记的嵌入,fi表示第i张行人图像的4维特征图,对于原始行人描述文本T={t1,t2,...,tB}采用Bert作为文本编码器,经过编码得到特征向量Y={y1,y2,...,yB},其中yi={wcls,w1,...,wn},wcls是[CLS]标记的嵌入;2构建文本语义聚类模块进行语义特征学习:包括:2-1特征向量X和特征向量Y采用图像文本对比学习和图像文本匹配任务来进行全局语义特征学习,这一步骤的总损失为:Lglobal_sem=LitcX,Y+LitmX,Y1,其中,yt2iT为从文本到图像的概率分布,pi2tI为图像和各个文本的相似度得分,yi2tI为从图像到文本的概率分布,pt2iT为文本和各图像的相似度得分,然后采用交叉熵损失评估预测概率分布与真实分布之间的差异,最后统计在小批次数据B上的数学期望作为LitcX,Y损失的结果;同理有LitmX,Y=EI,T~BHyitm,pitmI,T3,其中,EI,T~B表示对小批次数据B中所有图像I和文本T的配对进行期望计算,yitm是真实的标签,为独热编码形式表示图像和文本是否匹配,pitmI,T为模型预测给定图像I和文本T匹配的概率;2-2将行人特征图按照语义和出现的频次分为以下预定义类别:上半身、下半身、鞋子,原始图像I采用SwinTransformer得到的特征图Fs经过一个多层感知机语义头进行变换,该语义头将特征分类到预定义的类别中,该特征图采用K-Means算法进行聚类,然后通过随机数选定掩码类别得到语义掩码模板,将该掩码模板作用到原始图像I得到语义图像Isem,对应的语义分类损失为: 其中,w和h分别为特征图的宽度和高度,N+1表示总的语义部分数量,包括一个用于背景的额外的类别,yu,v是每个位置a,b的真实标签,fsa,bi是在位置a,b上,属于第i个语义部分的预测概率;2-3从原始描述句子T中采用命名实体识别和关系抽取来提取局部语义信息,并送到文本语义聚类模块以生成语义文本Tsem;2-4语义图像Isem经过图像编码器得到特征向量[X],语义文本Tsem经过文本编码器得到特征向量[Y],这一步骤的总损失为:Llocal_sem=NCE{X,[Y]}+NCE{[X],Y}5,其中,NCE·,·表示采用InfoNCE损失最大化两种输入数据对{X,[Y]}和{[X],Y}之间的互信息;2-5所有特征向量X、Y、[X]、[Y]都被映射到由语义匹配学习定义的潜在语义空间中采用全局语义特征学习损失Lglobal_sem和局部语义特征学习损失Llocal_sem进行语义特征学习,因此整个语义特征学习阶段的总损失如公式6所示:LSEM=Lglobal_sem+Llocal_sem+LSSL6,3构建共性语义协作模块进行语义一致性学习:包括:3-1采用大语言-视觉模型LLaVA作为文本解码器,并采用LoRA微调技术对文本解码器的视觉和语言模块的注意力机制以及多模态投影层上进行微调,对于给定的原始图像I和经过掩码得到的语义图像Isem,采用文本解码器分别生成生成文本Tgen和生成语义文本Tgs;3-2生成文本Tgen和生成语义文本Tgs一起送入文本编码器得到特征向量和3-3对语义图像与生成文本的特征向量计算余弦相似度,对图像与生成语义文本的特征向量计算余弦相似度,然后对两个余弦相似度再计算欧氏距离,对应的局部一致性损失为:其中,SI·,·为相似度函数;3-4加上图像文本对比学习和图像文本匹配学习得到局部语义一致性学习步骤的总损失: 3-5采用三元损失Ltri进一步优化模态间的语义对齐,如公式9所示: 其中,图像特征向量I为锚点,对应的生成文本特征向量为正样本,以及X-为负样本生成文本的特征向量以及负样本图像特征向量,δ为预设的边界参数,S·,·为相似度函数;3-6加上图像文本对比学习和图像文本匹配学习得到全局语义一致性学习步骤的总损失如公式10所示: 3-7计算语义语言建模损失Lsim如公式11所示: 这个损失确保生成的文本在语义上接近原始文本,同时也与相应的语义图像文本保持一致,因此整个语义一致性学习阶段的总损失如公式12所示:LCSC=Llocal_csc+Lglobal_csc+Lslm12;4优化基于模态间共性语义学习的跨模态行人重识别网络:整个训练阶段的总损失经过重新整合为:Ltotal=LSEM+LCSC=αLsemantic+βLitc+γLitm+ηLslm+τLsem_fine13,其中,各损失前权重参数α,β,γ,η,τ之和为1,在整个训练阶段基于帕累托优化损失理论进行根据验证集上的mAP性能对权重参数进行动态调整来优化模型;5验证过程:验证过程分为:5-1读取验证集中的图像,获取检索文本和查询图库的行人图像;5-2采用经过微调的文本解码器为查询图库的行人图像生成文本;5-3行人图像经过图像编码器得到特征向量X,生成文本和检索文本分别经过文本编码器得到特征向量Y和特征向量Z;5-4分别计算特征向量Z与特征向量X的余弦相似度,特征向量X与特征向量Y的余弦相似度,得到语义相似度矩阵B和语义相似度矩阵A;5-5分别构造语义相似度矩阵B和语义相似度矩阵A的权重矩阵b和a,采用阈值函数得到最后的加权相似度矩阵D如公式14所示:D=θb*B+a*A14,其中,Θ是阈值函数,b为检索文本-查询图库的语义相似度矩阵B的权重矩阵,a为查询图库-生成文本的语义相似度矩阵A的权重矩阵,两个相似度矩阵所用的语义相似度为余弦相似度。

全文数据:

权利要求:

百度查询: 广西师范大学 一种基于模态间共性语义学习的跨模态行人重识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。