恭喜天翼云科技有限公司梁丞瑜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜天翼云科技有限公司申请的专利视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119357340B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411933160.1,技术领域涉及:G06F16/332;该发明授权视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品是由梁丞瑜设计研发完成,并于2024-12-26向国家知识产权局提交的专利申请。
本视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品在说明书摘要公布了:本申请涉及视频理解技术领域,特别是涉及一种视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取长视频数据以及视频理解问题;将长视频数据分割为多个短视频片段,采用短期视觉字幕生成器基于每个短视频片段的图像信息,生成对应的描述文本;按照每个短视频片段对应的时间顺序依次拼接描述文本得到目标描述文本;将目标描述文本与视频理解问题输入至大语言模型,得到大语言模型基于目标描述文本生成的与视频理解问题对应的答案。采用本方法能够解决现有的长视频理解模型推理训练成本高且周期长的问题,起到简化长视频理解的复杂性,提高长视频理解中的问答生成效率以及准确率的技术效果。
本发明授权视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品在权利要求书中公布了:1.一种视频理解问题的答案生成方法,其特征在于,所述方法包括:获取长视频数据以及与所述长视频数据对应的视频理解问题;将所述长视频数据分割为多个短视频片段,采用短期视觉字幕生成器基于每个所述短视频片段的图像信息,生成与每个所述短视频片段对应的描述文本;按照每个所述短视频片段对应的时间顺序,依次拼接与每个所述短视频片段对应的描述文本,得到目标描述文本;将所述目标描述文本与所述视频理解问题输入至大语言模型,得到所述大语言模型基于所述目标描述文本生成的与所述视频理解问题对应的答案;其中,所述短期视觉字幕生成器的训练方式包括:获取短视频图像样本以及与所述短视频图像样本对应的描述文本样本,将所述短视频图像样本和所述描述文本样本输入至初始的字幕生成器,所述字幕生成器包括图像解码器、第一文本解码器、基于图像的第二文本解码器以及基于图像的第三文本解码器;通过所述图像解码器对所述短视频图像样本进行解码得到对应的图像信息,通过所述字幕生成器利用所述图像信息生成与所述短视频图像样本对应的预测描述文本;通过所述第一文本解码器对所述描述文本样本进行解码得到对应的文本信息,基于所述图像信息和所述文本信息的相似性确定所述图像信息、所述文本信息与所述预测描述文本之间的生成损失值;将所述描述文本样本输入至所述基于图像的第二文本解码器,将所述图像信息输入至所述基于图像的第二文本解码器的第二跨注意机制,利用所述基于图像的第二文本解码器的第三前馈网络、第二跨注意机制以及第二双向自注意机制对所述图像信息和所述文本信息进行处理,得到所述图像信息与所述文本信息之间的匹配损失值;将所述描述文本样本输入至所述基于图像的第三文本解码器,将所述图像信息输入至所述基于图像的第三文本解码器的第三跨注意机制,利用所述基于图像的第三文本解码器的第四前馈网络、第三跨注意机制、随机自注意机制对所述图像信息和所述文本信息进行处理,得到所述图像信息与所述文本信息之间的模型损失值;通过所述字幕生成器基于所述生成损失值、所述匹配损失值以及所述模型损失值调整模型参数,将模型参数调整后的字幕生成器作为所述短期视觉字幕生成器。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天翼云科技有限公司,其通讯地址为:100007 北京市东城区青龙胡同甲1号、3号2幢2层205-32室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。