Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于可见光引导的多注意力RGBT目标跟踪方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:电子科技大学

摘要:本发明属于扩展目标跟踪技术领域,具体涉及一种基于可见光引导的多注意力RGBT目标跟踪方法。本发明提出了非对称可见光引导的双向融合网络,利用可见光特征丰富红外特征的信息,引导两个模态的融合,完成模态的交互,减少目标跟踪任务精度的损失。此外为了使目标跟踪网络具有尺度感知和空间感知的能力,设计了基于目标关注的串联多角度动态模块,关注目标的大小变化、边缘模糊等问题,完成尺度感知和空间感知任务。然后采用Transformer对模板图像和搜索图像的特征进行相关性计算,对模板特征和搜索特征进行全局关联。最后通过分类回归组合对目标的位置和目标的大小进行预测。

主权项:1.一种基于可见光引导的多注意力RGBT目标跟踪方法,其特征在于,包括以下步骤:S1、数据预处理:从视频数据中筛选出匹配的可见光-红外视频对,并将视频按照同一帧率保存为图像对;手动选取视频第一帧的目标,将需要跟踪的目标用矩形框进行框选,将输入的图像对样本记为M=Mv,Mt,v表示可见光图像,t表示红外图像;可见光图像Mv和红外图像Mt均由图像对构成,图像对为模板图像Z和搜索图像X;在每个模态的图像对Z,X中,模板图像搜索图像其中HZ,WZ和HX,WX是原始图像的分辨率,裁剪图片保留目标框周围的背景信息;定义包含上下文信息的像素为p=w+h4,模板图像包含目标两倍的上下文信息:w′=w+2ph′=h+2p因此图像裁剪之后得到新的样本:Mtrain_new=Mv,Mtnew,Mtrain_new的大小为w′×h′;为了要适应主干网络的输入大小,将Mtrain_new缩放到相应大小A:a×w′×h′=AA表示模板图像的输入大小128×128或者搜索图像的输入大小256×256;S2、构建神经网络,包括特征提取主干网络和非对称可见光引导的双向融合网络、尺度感知和空间感知网络、交互网络以及跟踪网络:预处理后的数据送入主干网络同时提取特征,采用残差网络作为主干网络提取图像特征;所述残差网络对传统残差网络的五层结构进行了修改,去掉了残差网络最后一层,并将残差网络第四阶段的下采样率从2修改为1,此外,第四层也就是瓶颈层3采用了步长为2的扩展卷积来增加感受野,取可见光图像和红外图像的最后三层深度特征,用于后续进一步处理和融合;主干最后三层的输出为 其中,Res表示残差网络最后三层的输出,的每一层包含了两个模态经过非对称可见光引导的双向融合模块之后的输出: 其中非对称可见光引导的双向融合网络通过可见光图像特征中的纹理信息来弥补红外特征,改进其尺度信息,具体为:首先,将可见光特征和红外特征进行级联,得到di: 其中,和是主干网络后三层的输出;然后采用3条平行的结构来提取特征图的不同注意力权重描述符,其中两个分支经过了1×1的卷积块,另一个分支经过了一个3×3的卷积块,对跨信道信息进行建模,1×1卷积块不对特征进行降维;在将1×1卷积的输出分解为两个向量后,使用两个非线性的Sigmoid函数来拟合线性卷积上的二维二项分布: Attni=conv1×1catXi,Yi 其中,Avgh和Avgw表示在维度w和h上的自适应平均池化,conv1×1表示采用了1×1的卷积,Split表示特征分割;然后,对每组特征进行全局池化并采用乘法聚合每组中的通道注意力,从而扩大特征空间,捕捉局部的跨空间交互:b1,i=SoftAvgconv3×3catXi,Yi·conv3×3catXi,Yib2,i=SoftAvgGNcatX1,i,Y1,i·GNcatX1,i,Y1,iouti=Sigb1,i+b2,i其中,conv3×3表示采用了3×3的卷积,Avg表示在各个方向上的自适应平均池化,GN表示分组归一化,Soft表示归一化指数函数,Sig表示Sigmoid激活函数;最后,对两个模态采用级联的方式进行模态融合;所述尺度感知和空间感知网络通过非对称可见光引导的双向融合模块更新残差网络中最后三层的输出为每一层经过融合模块之后,得到了融合特征 以第3层特征为标准,对第2层特征进行下采样,对第4层特征进行上采样,使其特征大小保持一致;将这三个特征进行拼接,用一个四维张量进行表示得到了基于目标关注的串联多角度动态模块的输入,进一步将四维张量重塑为三维张量,令N=H×W,那么采用串联的方式,将全连接层结合得到的一个注意力转换为三个注意力,每个注意力仅仅关注一个角度,如下式所示:lout=wswclin·lin·lin其中,ws自适应空间感知模块,wc表示自适应尺度感知模块;所述自适应尺度感知模块,首先采用了全局池化获取特征图的最大值,然后通过卷积将所有通道整合到一起,最后采用激活函数作非线性映射: 其中,conv1×1表示1×1的卷积,σ表示硬Sigmoid激活函数,σ=0,min1,x+12;自适应空间感知模块采用可变卷积来学习位置之间的关系,可变卷积引入了偏移量的学习,通过改变偏移量可以改变感受野的形状,适应各种形状的目标,并且针对每个偏移量引入了权重系数,用于判断该区域是否是关注区域;为了得到对目标空间的注意力权重,使用Sigmoid激活函数进行非线性映射,通过这种方式根据权重系数来建模出对目标的关注程度,进而实现自适应的空间感知;所述交互网络将经过融合和多角度自适应之后的四维特征lt,out,ls,out,展开为三维特征将该三维特征送入Transformer的编码器中,通过自注意力对每个分支的特征进行自增强;然后利用解码器中的注意力对不同分支进行交互,融合不同分支的信息;最后通过一个单独的解码器,将两个分支的信息进行融合,完成交互过程;编码器首先引入了一个位置编码,获取每个特征块的位置信息,然后采用了多头注意力,捕捉不同位置图片之间的多重关系和细微差别: Hi=AttentionQWiQ,KWiK,VWiVMultiHead=catH1,……,HnhW0其中,dk是归一化后的注意力维度,WiQ,WiK,WiV,W0是四个可学习的参数;最后以一个残差模式的跳层连接得到输出:len=lin+MultiHeadlin+Px,lin+Px,lin其中,lin表示编码器的输入,Px表示位置编码;解码器采用了多头注意力机制,因此引入一个位置编码来获取位置信息,并使用残差结构来得到第一阶段的输出,与编码器不同的是,解码器采用了一个前馈模块FFN,增强模型的拟合能力:FFNx=max0,xW1+b1W2+b2其中,FFN表示前馈模块,W和b表示权重矩阵和基向量;解码器的输出表示为:lde=len+MultiHeadlen+Pen,len+Pen,lenlde=lde+FFNlde所述跟踪网络采用分类回归来进行跟踪,设定在目标框内的像素为预测的正样本,其余像素为预测的负样本,所有样本均对分类损失有贡献,但是只有正样本对回归损失有贡献;分类损失采用交叉熵损失: 其中,yt表示第t个样本的真实标签,yt=1表示前景;mt表示前景的概率;对于回归,结合了L1损失和giou损失来对目标框进行预测:Lreg=λL1L1Bi,Bi+λgiouLgiouBi,Bi其中,λL1和λgiou是两个损失在回归中的权重,Bi表示真实的目标框标签,而Bi表示预测的目标框的标签;S3:对构建的神经网络进行训练:输入的数据为图像对M=Mv,Mt,将数据划分为主干网络的输入:Xv,Xt和Zv,Zt。加载已有的在大型数据集预训练的模型的参数,通过步骤S2的四个网络来最终计算得到损失函数,通过损失函数反向传播来修正网络的权重,直至网络收敛;S4、采用训练好的网络对监控视频进行跟踪:选取需要跟踪的目标,生成第一帧图像的标签,将含有标签的图像序列首先输主干网络对不同模态的图像进行特征提取,并且经过非对称可见光引导的双向融合网络对两个模态的特征进行融合,完成模态的交互;然后通过尺度感知和空间感知网络,关注目标的大小变化、边缘模糊问题,对特征图进行相关性计算,分类得到目标中心的位置,回归得到目标的大小。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于可见光引导的多注意力RGBT目标跟踪方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。