一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

导航：龙图腾网> 最新专利技术> 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨理工大学

摘要：本发明公开了一种基于多粒度的跨模态交互框架解决视频问答的方法及系统，涉及计算机视觉和自然语言处理领域。本发明的技术要点包括：对视频提取帧级与目标级特征，并提取描述文本的语义词性和问题的词嵌入向量，利用对视频和描述文本的图神经网络获取多粒度的视频和文本表示，利用图神经网络集成不同粒度的表示，并利用注意力来捕获同模态的视频、同模态的文本，以及跨模态视频和文本之间的交互信息，生成基于问题的视觉表示和基于视频的文本表示，进而自适应地融合基于问题的视觉表示和基于视频的文本表示，生成答案。本发明通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。

主权项：1.一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，包括以下步骤：S1、对于输入的视频，提取视频帧特征，所述视频携带对应的描述文本；同时对于视频帧中的目标，提取目标级特征，所述目标级特征包括目标特征、目标位置和类别标签；S2、对于所述视频对应的描述文本，提取描述文本的词性分析结果；所述描述文本包括一个或多个；S3、对于输入的有关视频内容的问题，提取所述问题的特征，即提取问题的词嵌入向量，获得问题中每个单词的语义信息；S4、将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中，获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示；其中获得视频帧的全局表示和细粒度表示的具体过程包括：将提取的视频帧特征使用全连接层进行映射，得到视频帧的全局表示；将视频帧中目标作为图结点，构建基于图神经网络的空间图Gp＝Vp,Ep,Rp和语义图Ge＝Ve,Ee；其中，Vp和Ve代表目标结点，Ep代表空间图的边，Ee代表语义图的边，Rp代表视频帧中目标边框的相对位置；所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值；利用视频帧中目标位置和目标特征初始化空间图的结点；利用视频帧中目标类别标签和目标特征初始化语义图的结点；利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新，计算公式如下：其中，表示空间图第i个结点在图神经网络第l层的更新；Wp表示图神经网络的结点转换矩阵；bpri,j表示目标边框的相对位置ri,j的学习向量；Ni表示空间图中结点i的邻域；对语义图的多个初始结点加权获得邻接矩阵，所述邻接矩阵包括每个结点的邻接点集合；根据邻接矩阵和ReLU激活函数对语义图结点进行更新，计算公式如下：其中，表示语义图第i个结点在图神经网络第l层的更新；Ae,i表示第i个结点的邻接矩阵；表示利用邻接矩阵Ae,i得到的与第i个结点相邻的结点；We表示变换矩阵；表示注意力系数；利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化，分别获取帧级嵌入，并对多个视频帧的帧级嵌入进行堆叠，获得视频帧的细粒度表示；获得描述文本的全局表示和细粒度表示的具体过程包括：根据每个描述文本的词性分析结果构建角色图Gr＝Vr,Er,Tr，描述文本即句子，其本身作为全局结点，动词和实体分别作为动作结点和实体结点，每个动作结点直接连接全局结点，每个实体结点与不同的动作结点连接；其中，Vr代表动词、实体、句子组成的结点，Er代表角色图的边，Tr代表每个结点的类型，类型包括动词、实体或句子；对每个描述文本利用BERT模型提取句子特征和词级特征，句子特征是将每个单词的语义信息按文本顺序拼接，得到有上下文的句子语义信息；词级特征是每个单词的语义信息；对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入，对词级特征利用非线性投影初始化动词和实体结点；基于描述文本的词性分析结果和ReLU激活函数更新角色图结点，计算公式如下：其中，表示角色图中第i个结点在图神经网络第l层的更新；Wr1为嵌入矩阵，tr,i为Tr中第i个结点的类型；Ni表示角色图中第i个结点的邻域；Wr2为变换矩阵；为注意力系数；表示角色图中第i个结点的邻域点在图神经网络第l层的更新；在更新后，对多个描述文本的句子结点进行堆叠，得到描述文本的全局表示；使用图池对动作结点和实体结点进行平均池化，得到细粒度语言嵌入；将多个描述文本的细粒度语言嵌入进行堆叠，得到描述文本的细粒度表示；S5、将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中，获得基于问题的视觉表示和基于视频的文本表示；获得基于问题的视觉表示和基于视频的文本表示的具体过程包括：将视频帧的全局表示和细粒度表示作为结点构造基于图神经网络的视觉图，将描述文本的全局表示和细粒度表示作为结点构造基于图神经网络的语言图，并对视觉图的结点进行编码，得到视觉图编码V′；对语言图的结点进行编码，得到语言图编码L′；利用单层前馈网络将视觉图编码V′和问题的词嵌入向量Q分别与语言图编码L′合并编码，得到编码后的视频表示V1和问题表示Q1；利用softmax函数对视频表示V1应用同模态注意力机制得到同模态下的视频编码Vs，应用跨模态注意力机制得到跨模态下的视频编码Vd；利用softmax函数对问题表示Q1应用同模态注意力机制得到同模态下的问题编码Qs，应用跨模态注意力机制得到跨模态下的问题编码Qd；利用sigmoid激活函数将视频编码Vs和Vd融合，将问题编码Qs和Qd融合，得到视频表示V2和问题表示Q2；利用上下文注意力机制得到视频表示V2和问题表示Q2的融合权重，根据融合权重和单层前馈网络得到基于问题的视觉表示Vq和基于视频的文本表示Qv；S6、根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。

全文数据：

权利要求：

百度查询：哈尔滨理工大学一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种便于清洗的木材切割设备

下一篇：应用于高应力软岩大变形施工的支护结构

相关技术

一种便于清洗的木材切割设备

应用于高应力软岩大变形施工的支护结构

一种基于统计-动力相结合的传染病预测方法及系统

用于车辆的诊断与刷新设备及方法、系统、车辆以及计算机存储介质

一种高弹性PVDF微孔滤膜卷膜设备

一种燃气管道用支吊架结构

空调的控制方法、装置、设备存储介质及车辆

助力自行车中置驱动装置的安装结构和助力自行车

一种波纹状纸托折叠装置

一种卫浴防滑地板切割装置

一种塑胶制品分类放置货架

一种工业用空气过滤装置

解决相关技术

一种冲突解决方法及装置_华为技术有限公司_202410749354.X

一种模型训练方法和解决特定领域问题的方法_清华大学_202410166430.4

故障解决指引的生成方法、装置、设备及存储介质_平安银行股份有限公司_202210587459.0

一种解决超短槽变形的电路板加工用治具结构_深圳市鸿明精密电路有限公司_202323399787.7

一种用于解决凹印印刷刀线的方法_广东美士达药包材料股份有限公司_202410792818.5

一种解决供热管网水力失调的控制系统_苏州睿德天芯科技有限公司_202410812203.4

解决3D扫描系统中对应问题的系统和方法_3形状股份有限公司_202410227222.0

非地面网络中的可变随机接入信道竞争解决窗口_高通股份有限公司_202410806286.6

一种新型控制器解决多智能体系统一致性控制方法及系统_广东石油化工学院_202410781319.6

一种解决协调暂态过程中一次调频反调问题的动态平衡调整方法_湖北西塞山发电有限公司_202410789645.1

交互相关技术

信息交互方法及装置_创新先进技术有限公司_202110697452.X

信息交互方法、装置及电子车牌_南京中兴新软件有限责任公司_202010186220.3

交互智能平板及显示设备_深圳市雷松光电有限公司_202322621643.5

交互式宠物喂食器_T·F·H·发行公司_202380018256.2

用于交互的方法和装置_滴图(北京)科技有限公司_202310227948.X

多模态交互方法和装置_北京百川智能科技有限公司_202311865511.5

一种感知交互型人工存取架_浙江京腾智能装备有限公司_202323645360.0

直播数据的交互传输方法及系统_浙江多看看信息技术有限公司_202410896882.8

人机交互方法、设备、系统及存储介质_寒武纪(西安)集成电路有限公司_202310194059.8

一种人工智能交互屏支架_深圳市悠悠汇网络科技有限公司_202420180947.4

框架相关技术

一种电池模组支撑框架、端板框架及电池包_北京北交新能科技有限公司_202410642782.2

高防护通用型机柜框架_国电南瑞南京控制系统有限公司_202323214943.8

一种框架联接结构_深圳市禾望电气股份有限公司_202323123385.4

截割磨蚀试验台框架_天地上海采掘装备科技有限公司_202210075389.0

收紧器框架铆钉压铆机_深圳市精速五金机械有限公司_202322633380.X

一种白车身框架总成_上汽通用五菱汽车股份有限公司_201810303650.1

基于OpenSeadragon框架的病理标注系统_神州医疗科技股份有限公司_202311077618.3

拖运卡车空间框架安装布置_卡特彼勒公司_202080081221.X

一种具有加强结构的塑料框架_友翊精密机械科技(苏州)有限公司_202323643088.2

一种可调节的夹持框架_北京鑫火焰清洁能源技术开发有限公司_202323606033.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务