买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海人工智能创新中心
摘要:本发明涉及一种基于带预热单向注意力时序建模的视频流转录方法、装置及存储介质,其中方法包括:获取文本输入,并对文本输入进行编码得到文本编码;获取输入视频流;对视频流中的每一帧进行编码得到视频编码队列;基于输入的视频流,提取深度信息,得到深度图序列,并对每一张深度图进行编码得到深度编码队列;将视频编码和深度编码叠加后,输入至训练好的生成模型中,在文本编码的作用下,生成去噪输出队列;对去噪输出队列进行解码得到转录视频。与现有技术相比,本发明通过设计深度识别,并将视频编码和深度编码叠加作为模型输入,从而可以使得视频流转录模型的转录结果可以更好得与原视频保持空间结构一致性。
主权项:1.一种基于带预热单向注意力时序建模的视频流转录方法,包括:获取文本输入,并对文本输入进行编码得到文本编码;获取输入视频流;对视频流中的每一帧进行编码得到视频编码队列;其特征在于,还包括:基于输入的视频流,提取深度信息,得到深度图序列,并对每一张深度图进行编码得到深度编码队列;将视频编码和深度编码叠加后,输入至训练好的生成模型中,在文本编码的作用下,生成去噪输出队列;对去噪输出队列进行解码得到转录视频。
全文数据:
权利要求:
百度查询: 上海人工智能创新中心 基于带预热单向注意力时序建模的视频流转录方法、装置及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。