首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于大模型的视频描述与检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浪潮智能终端有限公司

摘要:本发明公开了一种基于大模型的视频描述与检索方法,涉及数据处理和视频检索技术领域。一种基于大模型的视频描述与检索方法,通过利用大模型的强大能力,实现对视频内容的描述和准确检索。在视频描述生成中,通过帧级信息提取、时序信息整合和视频描述生成步骤获取丰富的视频内容描述;在视频检索中,通过检索信息解析和基于视频描述的检索方法,获得准确的视频检索结果。通过更强大的表示学习能力和深入理解视频语义信息来提高检索的准确性和效率。

主权项:1.一种基于大模型的视频描述与检索方法,其特征在于,包括,视频描述生成方法的具体步骤为,(1)帧级信息提取;对于输入的视频,首先将其分割成帧图片;利用预训练的视觉语言大模型,特定promptP1与帧图片同时作为视觉语言大模型的输入,输出为一段自然语言信息作为帧级信息F;(2)时序信息整合;对于基于视频帧提取的帧级信息,将其与时序上邻近的视频帧的帧级信息进行融合;融合方法是,根据视频的播放顺序,取得当前帧的前后n帧作为邻近帧,把当前帧的帧级信息F0和临近帧的信息Fn按照顺序整合,输入到大语言模型中,基于特定的promptP2进行信息抽取和总结,从而生成更具时序性和连贯性的含有帧间描述信息的帧信息;帧级信息和含有帧间描述信息的帧信息共同组成每一帧抽取和总结的信息;(3)视频描述生成;对于每一帧抽取和总结的信息作为视频描述的一部分;视频描述针对每一帧抽取和总结的信息,输入到大语言模型中,基于特定的promptP3进行信息抽取和总结,从而生成视频总体描述;视频总体描述作为视频描述的一部分;视频检索的具体步骤为:(1)检索信息解析;检索信息是语言描述、检索图片或语言描述和检索图片的结合;当检索信息是语言描述时,直接使用检索信息作为检索输入;当检索信息是检索图片时,利用训练的视觉语言大模型,使用特定promptP1获得该图片的帧级信息作为检索输入;当检索信息是语言描述和检索图片结合时,把语言描述和检索图片的帧级信息结合作为检索输入;(2)对视频描述的检索;基于检索输入和视频总体描述生成promptP4,输入到大语言模型中,获取该视频描述与检索输入关联性的结果;关联性的结果为肯定时,该视频判定为候选视频检索结果;关联性结果为否定时,排除该视频为检索结果;对于候选视频检索结果,结合检索输入和含有帧间描述信息的帧信息生成promptP5,输入到大语言模型中,输入该帧与检索输入的关联性结果;关联性结果为肯定时,该帧判断为视频检索结果的关联帧;关联性结果是表示肯定或者否定的描述语句;视频检索结果包括视频检索结果和检索结果的关联帧。

全文数据:

权利要求:

百度查询: 浪潮智能终端有限公司 一种基于大模型的视频描述与检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。