恭喜上海岩芯数智人工智能科技有限公司李骋远获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜上海岩芯数智人工智能科技有限公司申请的专利一种与音频信息对齐的长视频理解增强方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119152888B 。
龙图腾网通过国家知识产权局官网在2025-01-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411585774.5,技术领域涉及:G10L25/57;该发明授权一种与音频信息对齐的长视频理解增强方法及装置是由李骋远;刘邦贵设计研发完成,并于2024-11-08向国家知识产权局提交的专利申请。
本一种与音频信息对齐的长视频理解增强方法及装置在说明书摘要公布了:本发明提供一种与音频信息对齐的长视频理解增强方法及装置,解决了现有技术中存在的对视频数据进行处理时,未考虑视频中的音频信息以及大语言模型的训练和推理的成本大的问题。1)通过交叉注意力模块,实现了在增强视频时空特征融合的同时也减小了视频画面特征的序列长度,进一步减小了训练成本;2)通过编码视频中的音频信息并下采样至视频画面特征的序列长度,实现了视频中音频模态与对齐;3)将时间维度对齐的音频模态与画面模态相加,进行了信息的融合。将音频模态经过下采样与间隔选取的视频画面模态长度进行对齐,保留了全部信息。然后与画面模态相加,补齐了画面模态中因为间隔抽帧而造成的信息缺失问题。
本发明授权一种与音频信息对齐的长视频理解增强方法及装置在权利要求书中公布了:1.一种与音频信息对齐的长视频理解增强的方法,其特征在于,具体包括如下步骤:步骤S1、获取视频数据DATA1,对数据DATA1的画面信息和音频信息进行抽取,形成A帧视频帧数据DATA2和音频数据DATA3;步骤S2、从所述数据DATA2中等间隔抽取K帧视频帧,并对所述K帧视频帧通过视频编码器进行特征编码,形成大小为的视频编码特征M;步骤S3、从所述数据DATA2中等间隔抽取N帧视频帧,并对所述N帧视频帧通过视频编码器进行特征编码,形成大小为的视频编码特征X;或从视频编码特征M中获取等间隔抽取N帧视频帧对应的视频编码特征,形成大小为的视频编码特征X;步骤S4、将X作为Query,M作为Key和Value输入Resampler模块进行交叉注意力处理,形成大小为的特征O;步骤S5、对所述音频数据DATA3进行编码,形成音频编码特征Y;步骤S6、将所述音频编码特征Y输入下采样模块,形成大小为的音频编码特征P;步骤S7、将所述特征O和所述特征P进行特征叠加,形成特征R;或将所述特征O和所述特征P进行特征拼接,形成特征R;其中,步骤S2中,所述K帧视频帧包括起始帧和末尾帧;其中,步骤S3中,所述N帧视频帧包括起始帧和末尾帧;其中,N、K、K1、N1均为正整数,KN;;;其中,B、D均为正整数;B表示批大小;H表示高;W表示宽;D表示维度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海岩芯数智人工智能科技有限公司,其通讯地址为:201203 上海市浦东新区博霞路11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。