首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨理工大学

摘要:本发明公开了一种基于多粒度的跨模态交互框架解决视频问答的方法及系统,涉及计算机视觉和自然语言处理领域。本发明的技术要点包括:对视频提取帧级与目标级特征,并提取描述文本的语义词性和问题的词嵌入向量,利用对视频和描述文本的图神经网络获取多粒度的视频和文本表示,利用图神经网络集成不同粒度的表示,并利用注意力来捕获同模态的视频、同模态的文本,以及跨模态视频和文本之间的交互信息,生成基于问题的视觉表示和基于视频的文本表示,进而自适应地融合基于问题的视觉表示和基于视频的文本表示,生成答案。本发明通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。

主权项:1.一种基于多粒度的跨模态交互框架解决视频问答的方法,其特征在于,包括以下步骤:S1、对于输入的视频,提取视频帧特征,所述视频携带对应的描述文本;同时对于视频帧中的目标,提取目标级特征,所述目标级特征包括目标特征、目标位置和类别标签;S2、对于所述视频对应的描述文本,提取描述文本的词性分析结果;所述描述文本包括一个或多个;S3、对于输入的有关视频内容的问题,提取所述问题的特征,即提取问题的词嵌入向量,获得问题中每个单词的语义信息;S4、将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中,获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示;其中获得视频帧的全局表示和细粒度表示的具体过程包括:将提取的视频帧特征使用全连接层进行映射,得到视频帧的全局表示;将视频帧中目标作为图结点,构建基于图神经网络的空间图Gp=Vp,Ep,Rp和语义图Ge=Ve,Ee;其中,Vp和Ve代表目标结点,Ep代表空间图的边,Ee代表语义图的边,Rp代表视频帧中目标边框的相对位置;所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值;利用视频帧中目标位置和目标特征初始化空间图的结点;利用视频帧中目标类别标签和目标特征初始化语义图的结点;利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新,计算公式如下: 其中,表示空间图第i个结点在图神经网络第l层的更新;Wp表示图神经网络的结点转换矩阵;bpri,j表示目标边框的相对位置ri,j的学习向量;Ni表示空间图中结点i的邻域;对语义图的多个初始结点加权获得邻接矩阵,所述邻接矩阵包括每个结点的邻接点集合;根据邻接矩阵和ReLU激活函数对语义图结点进行更新,计算公式如下: 其中,表示语义图第i个结点在图神经网络第l层的更新;Ae,i表示第i个结点的邻接矩阵;表示利用邻接矩阵Ae,i得到的与第i个结点相邻的结点;We表示变换矩阵;表示注意力系数;利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化,分别获取帧级嵌入,并对多个视频帧的帧级嵌入进行堆叠,获得视频帧的细粒度表示;获得描述文本的全局表示和细粒度表示的具体过程包括:根据每个描述文本的词性分析结果构建角色图Gr=Vr,Er,Tr,描述文本即句子,其本身作为全局结点,动词和实体分别作为动作结点和实体结点,每个动作结点直接连接全局结点,每个实体结点与不同的动作结点连接;其中,Vr代表动词、实体、句子组成的结点,Er代表角色图的边,Tr代表每个结点的类型,类型包括动词、实体或句子;对每个描述文本利用BERT模型提取句子特征和词级特征,句子特征是将每个单词的语义信息按文本顺序拼接,得到有上下文的句子语义信息;词级特征是每个单词的语义信息;对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入,对词级特征利用非线性投影初始化动词和实体结点;基于描述文本的词性分析结果和ReLU激活函数更新角色图结点,计算公式如下: 其中,表示角色图中第i个结点在图神经网络第l层的更新;Wr1为嵌入矩阵,tr,i为Tr中第i个结点的类型;Ni表示角色图中第i个结点的邻域;Wr2为变换矩阵;为注意力系数;表示角色图中第i个结点的邻域点在图神经网络第l层的更新;在更新后,对多个描述文本的句子结点进行堆叠,得到描述文本的全局表示;使用图池对动作结点和实体结点进行平均池化,得到细粒度语言嵌入;将多个描述文本的细粒度语言嵌入进行堆叠,得到描述文本的细粒度表示;S5、将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中,获得基于问题的视觉表示和基于视频的文本表示;获得基于问题的视觉表示和基于视频的文本表示的具体过程包括:将视频帧的全局表示和细粒度表示作为结点构造基于图神经网络的视觉图,将描述文本的全局表示和细粒度表示作为结点构造基于图神经网络的语言图,并对视觉图的结点进行编码,得到视觉图编码V′;对语言图的结点进行编码,得到语言图编码L′;利用单层前馈网络将视觉图编码V′和问题的词嵌入向量Q分别与语言图编码L′合并编码,得到编码后的视频表示V1和问题表示Q1;利用softmax函数对视频表示V1应用同模态注意力机制得到同模态下的视频编码Vs,应用跨模态注意力机制得到跨模态下的视频编码Vd;利用softmax函数对问题表示Q1应用同模态注意力机制得到同模态下的问题编码Qs,应用跨模态注意力机制得到跨模态下的问题编码Qd;利用sigmoid激活函数将视频编码Vs和Vd融合,将问题编码Qs和Qd融合,得到视频表示V2和问题表示Q2;利用上下文注意力机制得到视频表示V2和问题表示Q2的融合权重,根据融合权重和单层前馈网络得到基于问题的视觉表示Vq和基于视频的文本表示Qv;S6、根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。

全文数据:

权利要求:

百度查询: 哈尔滨理工大学 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。