恭喜合肥工业大学周金星获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜合肥工业大学申请的专利一种基于多模态异构图的视听视频问答方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119311842B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411823994.7,技术领域涉及:G06F16/3329;该发明授权一种基于多模态异构图的视听视频问答方法和系统是由周金星;郭丹;李张斌;汪萌设计研发完成,并于2024-12-12向国家知识产权局提交的专利申请。
本一种基于多模态异构图的视听视频问答方法和系统在说明书摘要公布了:本发明公开了一种基于多模态异构图的视听视频问答方法和系统,涉及多模态交互、视频内容分析、智能问答等技术领域,提取音视频中的视觉特征和音频特征;根据视觉特征和音频特征,分别构建运动引导和音频引导的异构图;将运动引导和音频引导的异构图进行聚合,得到视听交互后的视觉特征和音频特征;提取查询问题中的问题特征,根据问题特征挑选关键视觉区域,获取稀疏视觉特征;根据问题特征和稀疏视觉特征,构建问题引导的异构图,得到局部视觉特征和全局视觉特征;将问题特征分别与视听交互后的音频特征、局部视觉特征和全局视觉特征进行融合,分别得到融合后的问题特征;根据多模态融合后的问题特征,得到问题答案的预测结果,提升问答准确率。
本发明授权一种基于多模态异构图的视听视频问答方法和系统在权利要求书中公布了:1.一种基于多模态异构图的视听视频问答方法,其特征在于,包括以下步骤:S1,提取音视频中的视觉特征和音频特征;S2,根据视觉特征和音频特征,构建运动引导的异构图;S3,根据视觉特征和音频特征,构建音频引导的异构图;S4,将运动引导的异构图和音频引导的异构图进行聚合,得到视听交互后的视觉特征和音频特征;S5,提取查询问题中的问题特征,根据问题特征挑选关键视觉区域,获取稀疏视觉特征;S6,根据问题特征和稀疏视觉特征,构建问题引导的异构图,得到局部视觉特征和全局视觉特征;S7,多模态融合:将问题特征分别与视听交互后的音频特征、局部视觉特征和全局视觉特征进行融合,分别得到融合后的问题特征;S8,根据多模态融合后的问题特征,得到问题答案的预测结果;步骤S1中,对音视频进行划分,得到T个视频帧和T个音频片段;对每个视频帧和音频片段进行特征提取,得到音视频的视觉特征和音频特征;其中,视觉特征记为,,vt是第t个视频帧的视觉特征,,N2表示视频帧图像中的视觉区域数目,d是特征维度;音频特征记为I={at|t=1,...,T},I∈RT×d,其中,at是第t个音频片段的音频特征,at∈R1×d;步骤S2的具体过程如下所示:S21,计算每个视频帧的运动密度mt,计算方式为:首先计算每个视觉区域的运动密度ρit: ;其中,||·||表示特征二范数归一化处理;vit与vit+1表示相邻视频帧即第t个视频帧和t+1个视频帧中第i个视觉区域对应的区域视觉特征;ρit表示第t个视频帧中第i个视觉区域的运动密度;然后计算得到第t个视频帧的运动信息ρt: ;得到所有视频帧的运动信息的平均值μ: ;最后计算得到每个视频帧的运动密度mt,mt=1-λρt+λμ;其中,λ为平衡系数;S22,获取运动引导的异构图的连接矩阵Amt: ;其中,表示矩阵元素间两两点乘;上标T表示矩阵转置,符号“;”表示矩阵拼接;S23,确定运动引导的异构图的图节点Nt=[vt;at];S24,构建运动引导的异构图Gmt,Gmt=ReLUAmtNtWm;其中,Wm是运动引导的异构图Gmt的可学习参数,ReLU是激活函数;GmtNt=[vmt;amt],vmt为运动引导的异构图Gmt的图节点Nt中的视觉特征,amt为运动引导的异构图Gmt的图节点Nt中的音频特征;步骤S3的具体过程如下所示:S31,计算每个视频帧的声音激活矩阵st: ;其中,表示矩阵乘法;S32,获取音频引导的异构图的连接矩阵Ast: ;S33,确定音频引导的异构图的图节点Nt=[vt;at];S34,构建音频引导的异构图Gst,Gst=ReLUAstNtWs;其中,Ws是音频引导的异构图Gst的可学习参数;GstNt=[vst;ast],vst为音频引导的异构图Gst的图节点Nt中的视觉特征,ast为音频引导的异构图Gst的图节点Nt中的音频特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥工业大学,其通讯地址为:230009 安徽省合肥市包河区屯溪路193号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。