基于三维卷积和视觉Transformer的多模态唇语识别方法、装置及介质

导航：龙图腾网> 最新专利技术> 基于三维卷积和视觉Transformer的多模态唇语识别方法、装置及介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山东浪潮数字服务有限公司

摘要：本发明提供了基于三维卷积和视觉Transformer的多模态唇语识别方法、装置及介质，属于唇语识别技术领域。所述方法包括：采集唇部视频数据和音频数据，并对数据进行标注和预处理；分别使用基于三维卷积和Transformer的网络从视频和音频中提取视觉特征和音频特征；采用自适应权重融合策略，动态整合视觉和音频两种模态的信息，生成融合特征向量；构建并训练唇语识别模型；将融合特征向量输入到训练完成的唇语识别模型中，依次经过三维卷积神经网络、模型前端编码器和解码器，输出最终的唇语识别结果。本发明动态结合视频和音频数据，以提升唇语识别的整体性能。

主权项：1.一种基于三维卷积和视觉Transformer的多模态唇语识别方法，其特征在于，包括：采集唇部视频数据和音频数据，并对数据进行标注和预处理；分别使用基于三维卷积和Transformer的网络从视频和音频中提取视觉特征和音频特征；采用自适应权重融合策略，动态整合视觉和音频两种模态的信息，生成融合特征向量；构建并训练唇语识别模型，所述唇语识别模型依次包括三维卷积神经网络、模型前端编码器和解码器；所述模型前端编码器依次包括二维卷积和视觉Transformer模型，所述视觉Transformer模型基于Transformer模型在其卷积标记嵌入层中加入了压缩和激励结构；所述解码器依次包括BiGRU、全连接层和softmax函数；将融合特征向量输入到训练完成的唇语识别模型中，依次经过三维卷积神经网络、模型前端编码器和解码器，输出最终的唇语识别结果。

全文数据：

权利要求：

百度查询：山东浪潮数字服务有限公司基于三维卷积和视觉Transformer的多模态唇语识别方法、装置及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种导轨式高速精密冲床

下一篇：一种墙体封头浇筑模板加固用堵头

相关技术

一种导轨式高速精密冲床

一种墙体封头浇筑模板加固用堵头

一种精准控温的节能型隧道炉

面团分割滚圆机

一种吸油烟机

一种模具钢表面的精加工设备

一种一体化垃圾渗滤液高效处理设备

印刷纸板加湿喷雾装置

一种水箱散热器

一种雷达物位计防护结构

一种新型造口冲洗套件

一种墙面钻孔装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于三维卷积和视觉Transformer的多模态唇语识别方法、装置及介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务