首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于自进化条件表征的组合泛化图像多标签分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明提供了一种基于自进化条件表征的组合泛化图像多标签分类方法,利用预测出的其他概念元文本提示特征矩阵与输入图像原始特征矩阵的交叉融合特征矩阵作为条件,与要进行表征自进化的概念元语义和视觉表征进行特征融合,实现了各概念元语义和视觉表征针对不同输入图像的即时性自进化,不仅使学习出的语义和视觉表征更加适应不同的输入图像,而且能够解决以往方法缺乏对概念元之间的相互关系进行建模的问题。在多个数据集上的分类精确度均获得了突出进步。能够根据输入图像所属的其他种类概念元表征与输入图像视觉表征对某种概念元的视觉与语义表征进行即时性自进化,使学习到的表征更加灵活,对新组合的泛化性能更强。

主权项:1.一种基于自进化条件表征的组合泛化图像多标签分类方法,其特征在于包括下述步骤:步骤1:从数据集中随机采样出一个批次的输入图像,该批次含b张输入图像,对该批次中的所有输入图像统一采用双三次差值法缩放到H×W尺寸,H是图像高度,W是图像宽度,然后以0.5的概率对该批次中的所有输入图像进行随机水平翻转,±5°之内的随机旋转,以及做RGB三通道平均值为μ1、μ2和μ3,标准差为σ1、v2和σ3的归一化操作;将进行图像缩放、图像随机水平翻转、图像随机旋转和图像RGB通道归一化操作后输出的该批次的所有输入图像,经由冻结所有参数的开源预训练视觉语言模型B*中的视觉Transformer模型提取特征,得到视觉特征矩阵其中,*表示所有参数均冻结,不在训练过程中进行更新,nv表示视觉特征数量,dv表示视觉特征中每个特征的通道数量,nv个视觉特征中的第1个特征表示输入图像的全局特征;步骤2:给定N个概念元集合Ai,i表示所有种类概念元的序号,i=1,2,...,N,j表示每个概念元集合Ai中的概念元序号,则Ai含有、个概念元aij,Ai={aij|j=1,2,...,mi},所有概念元aij总共构成个组合,采用集合表示法,则所有由N种概念元构成的组合表示为组合集合C={ck|k=1,2,...,nc},其中ck表示C中的第k个组合概念,k表示组合集合C中的组合概念的序号;步骤3:将视觉特征矩阵V输入到N+1个视觉自编码器中,独立执行N+1次视觉自编码,每次视觉自编码首先经过单层自注意力,然后经过多层感知器,将V分别映射到每个概念元集合所在的概念元空间以及组合集合C所在的组合空间中;步骤4:构造2种文本提示模板ti和tc:ti用于构造N种概念元提示,每种概念元提示模板ti可构成mi个概念元提示,每种概念元提示模板ti的文本中包含1个概念元单词占位符;tc用于构造组合概念提示,tc可构成nc个组合概念提示,每个组合概念提示模板tc的文本中包含N个概念元单词占位符,概念元单词占位符均采用字母“x”表示;步骤5:采用B*中的预训练词向量库将ti和tc中的每个单词映射成对应的单词特征向量,分别构成概念元提示特征矩阵和组合概念提示特征矩阵然后提取所有概念元单词特征向量对于第i种概念元,将该种概念元的所有概念元单词特征向量替换Ti中所有“x”的特征向量,最终共得到N个替换后的概念元提示特征矩阵其中,每个T′i含mi个概念元提示特征,nt是提示文本句子的最大单词数量,dt是每个单词特征向量的通道数,对于第k个组合概念,将N个构成该组合概念的概念元单词特征向量代入到Tc中替换字母“x”的特征向量,最终得到含nc个组合提示特征的组合概念提示特征矩阵步骤6:将所有T′i以及T′c输入到B*中的预训练文本Transformer模型输出概念元语义特征矩阵和组合概念语义特征矩阵步骤7:对所有Pi和Pc的第二个维度进行平均池化,消除第二个维度,分别得到和在Vc和N个Vi的第二个维度取第一个元素,得到和N个,由于d不等于dv,因此将Bi和Bc的最后一个维度映射为d个通道,即,和另外,将Si和Sc的最后一个维度再进行一次同通道数映射,有其中,和是B*中的2个预训练LN,和是B*中两个不同值的预训练映射矩阵;最后,计算S′c与B′c的余弦相似度矩阵以及N个S′ai与B′ai的余弦相似度矩阵其中||x||2表示计算矩阵或向量x的二范数,所有N种概念元的预分类结果为N个其中argmax表示返回最后一个维度中最大值的序号,表示b张输入图像所属的所有概念元序号;步骤8:计算第i种概念元的语义自进化条件表征计算第i种概念元的视觉自进化条件表征步骤9:在Ci的第三个维度上求平均,消除Ci的第三个维度,得到通过选择Ji第二个维度的第一个特征,得到计算输入图像对第i种概念元集合Ai中所有概念元的分类结果,即计算J′i和C′i之间的余弦相似度矩阵步骤10:对所有Yi和步骤7计算出的Dc均采用交叉熵损失进行训练;步骤11:采用线性归一化公式1+X2将所有相似度Yi、Di和Dc分别归一化到闭区间[0,1],然后进行集成,得到最终分类分数Y;步骤12:将计算的Lc、Ly和N个损失值Li进行加权求和,计算得到最终损失L: 其中,α2和α3分别是平衡最终损失L不同部分的平衡因子;步骤13:采用反向传播方法,从最终损失函数L开始,反向计算出所有可训练参数的梯度,采用Adam优化器对所有可训练参数的梯度进行梯度下降,判断训练轮次是否大于等于最大训练轮次nmax,若否,则返回步骤1,若是,则结束算法。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于自进化条件表征的组合泛化图像多标签分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。