一种多模态大模型驱动的视频理解与检索方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国科学技术大学

摘要：本发明涉及视频检索技术领域，公开了一种多模态大模型驱动的视频理解与检索方法,包括：对待检索的视频文件，进行预处理；抽取视频片段中的语音，使用语音识别模型将语音转化成文字，作为视频片段的听觉元素文字表示；通过多模态大模型，将视频片段对应的帧组中各帧图像的图像信息转为文字，作为视频片段的视觉元素文字表示；通过SBERT模型计算每个视频片段的文字表示的向量，将得到的视频片段编码向量存入数据库中；使用倒数排序融合将向量检索结果与全文检索结果进行综合排序，给出最终检索结果。本发明通过使用预训练模型从视觉和听觉角度理解视频，不需要大规模人工标注的视频数据，泛化性高，扩展性强。

主权项：1.一种多模态大模型驱动的视频理解与检索方法，其特征在于，包括以下步骤：步骤一，对待检索的视频文件，进行预处理：对视频文件进行分割，得到视频片段；将每个视频片段按照设定频率进行帧采样，形成视频片段对应的帧组；对无音频的视频片段添加无声音的音轨；步骤二，对每个视频片段抽取音频文件，使用预训练的语音识别模型将音频文件中的语音转化成文字，作为视频片段的听觉元素文字表示；步骤三，通过预训练的多模态大模型，将视频片段对应的帧组中各帧图像的图像信息转为文字，作为视频片段的视觉元素文字表示；步骤四，将视频片段的听觉元素文字表示和视频片段的视觉元素文字表示进行合并，得到视频片段的文字表示，通过SBERT模型计算每个视频片段的文字表示的向量，得到视频片段编码向量；将视频片段编码向量和视频片段的文字表示存入数据库中，完成视频的理解过程；步骤五，通过自然语言形式的查询语句对数据库中的视频片段进行查询：通过SBERT模型计算查询语句的向量，通过查询语句向量与数据库中的视频片段编码向量进行向量检索；将查询语句输入到大语言模型，解析查询语句中的关键词，通过关键词以及数据库中的视频片段的文字表示进行全文检索；使用倒数排序融合将向量检索的结果与全文检索的结果进行综合排序，给出最终的检索结果，完成视频的检索过程。

全文数据：

权利要求：

百度查询：中国科学技术大学一种多模态大模型驱动的视频理解与检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于运行实际的核电厂设备安全重要性评估方法

下一篇：一种防弹隐身方舱

相关技术

一种基于运行实际的核电厂设备安全重要性评估方法

一种防弹隐身方舱

用于处理与电机相关联的数据的方法和装置

音频编码方法、装置和计算机可读存储介质

半导体存储器件

高效固件测试

用于治疗胰腺癌的帕特胺A衍生物

指纹识别组件及智能门锁

一种穿越活动断裂带的油气管道TBM隧道抗错动接头

一种调用链采样方法、装置、设备及介质

完整性检查方法以及相关联计算机程序和设备

一种口罩总泄漏率检测仪

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种多模态大模型驱动的视频理解与检索方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务