首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种渐进式多尺度上下文学习的时序目标定位方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:天津大学

摘要:本发明公开了一种渐进式多尺度上下文学习的时序目标定位方法,包括:基于预训练网络获取视频特征和文本特征;将所述视频特征和所述文本特征进行跨模态特征融合得到富含文本语义信息的视频特征;基于Transformer算法和卷积神经网络构建双分支的渐进式多尺度上下文学习模块对所述富含文本语义信息的视频特征进行学习得到最终输出特征;随机初始化若干时刻查询,将若干所述时刻查询与所述最终输出特征共同输入到解码器后得到最终目标定位结果。本发明通过两支路的同时使用有利于时序特征更充分的上下文建模,有效提高时序目标定位精度。

主权项:1.一种渐进式多尺度上下文学习的时序目标定位方法,其特征在于,包括:基于预训练网络获取视频特征和文本特征;将所述视频特征和所述文本特征进行跨模态特征融合得到富含文本语义信息的视频特征;基于Transformer算法和卷积神经网络构建双分支的渐进式多尺度上下文学习模块对所述富含文本语义信息的视频特征进行学习得到最终输出特征;随机初始化若干时刻查询,将若干所述时刻查询与所述最终输出特征共同输入到解码器后得到最终目标定位结果;基于所述双分支的渐进式多尺度上下文学习模块对所述富含文本语义信息的视频特征进行学习的过程包括:基于Transformer分支学习视频全局特征关系和基于卷积神经网络分支学习视频局部特征关系;其中,基于Transformer算法分支学习视频全局特征关系得到全局特征的过程包括:定义若干不同尺度的一维池化层;将所述富含文本语义信息的视频特征分别输入若干所述不同尺度的一维池化层得到不同尺度的事件特征和全局视频特征;将片段视频分别与所述事件特征和全局视频特征进行建模得到全局特征;定义若干不同尺度的一维池化层的公式为: 式中,Fi代表第i个池化层的输入特征,si代表对应步长,s1s2,Pooli表示第i个一维池化层,Maxpool·表示最大池化操作,AdaptiveMaxpool·表示自适应最大池化操作;将所述富含文本语义信息的视频特征分别输入若干所述不同尺度的一维池化层得到不同尺度的查询,键和值,基于多头注意力机制融合上下文信息不同尺度的查询,键和值,其中,多头注意力机制公式为:Qi=contextiKi,Vi=Poolicontexti,Poolicontexti 式中,contexti代表第i个多头注意力的输入特征,Pooli·代表第i个池化层;Qi、Ki和Vi分别代表输入到第i个多头注意力MHSAi·的查询、键和值,d是它们对应的维度,Softmax是归一化指数函数,T表示转置;基于多尺度的渐进式学习策略将所述片段视频分别与所述事件特征和全局视频特征进行建模得到视频全局特征关系;其中,计算公式为:Pcontext1=MHSA1Ft2v+Ft2vPcontext2=MHSA2Pcontext1+Pcontext1Pcontext3=MHSA3Pcontext2+Pcontext2式中,Ft2v表示富含语义信息的视频特征,MHSAi·代表第i个多头注意力操作,Pcontexti代表第i个多头注意力和残差连接的输出;基于卷积神经网络分支学习视频局部特征关系得到局部特征的计算公式为:Ccontext=DepthwiseConvPointwiseConvFt2v式中,PointwiseConv代表逐点卷积,DepthwiseConv是逐通道卷积,输入特征的每个通道都有一个独立的3×3卷积核来提取特征,Ccontext表示卷积神经网络分支最终的特征输出;基于全局特征和局部特征得到最终输出特征的公式为:contexttotal=Pcontext3+Ccontext+Ft2vcontextout=FFNcontexttotal+contexttotal其中,Pcontext3和Ccontext分别代表基于Transformer分支和卷积神经网络分支最终的特征输出,contexttotal代表所有分支输出以及残差连接特征的融合结果,FFN·表示传统Transformer中的前馈神经网络,contextout表示上下文学习模块的最终输出;将若干所述时刻查询与所述最终输出特征共同输入到解码器后得到解码器输出的计算公式为:FDec=DecLm,contextout式中,Dec·表示基于DAB-DETR变种的解码器,FDec表示解码器的输出,Lm表示时刻查询。

全文数据:

权利要求:

百度查询: 天津大学 一种渐进式多尺度上下文学习的时序目标定位方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。