通过音素预测进行视觉语音识别

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：渊慧科技有限公司

摘要：用于执行视觉语音识别的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。在一个方面，一种方法包括：接收包括多个视频帧的视频，其中每个视频帧描绘双唇；使用视觉语音识别神经网络来处理所述视频，以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应的输出分数，其中所述视觉语音识别神经网络包括一个或多个体积卷积神经网络层和一个或多个时间‑聚合神经网络层；其中可能标记的词汇表包括多个音素；以及使用所述输出分数来确定由所述视频中描绘的双唇所表达的词的序列。

主权项：1.一种用于视觉语音识别的方法，所述方法包括：接收包括多个视频帧的视频，其中每个视频帧描绘双唇；根据视觉语音识别神经网络参数的当前值使用视觉语音识别神经网络处理所述视频，以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应的输出分数，其中，视觉语音识别神经网络包括：i三维卷积模块，该三维卷积模块包括多个体积卷积神经网络层的序列，和ii时间模块；其中，所述三维卷积模块使用所述多个体积卷积神经网络层的序列的多个三维卷积过滤器来处理描绘双唇的多个视频帧，以针对描绘双唇的多个视频帧中的每个视频帧生成相应的时空特征向量；其中，所述时间模块处理与描绘双唇的视频帧相对应的时空特征向量，以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应输出分数；其中可能标记的词汇表包括多个音素；以及使用针对输出序列中的每个输出位置的可能标记的词汇表中的每个标记的相应输出分数，确定由视频中描绘的双唇所表达的词的序列。

全文数据：

权利要求：

百度查询：渊慧科技有限公司通过音素预测进行视觉语音识别

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：吸管杯及其杯盖

下一篇：一种无纺布成卷机

相关技术

吸管杯及其杯盖

一种无纺布成卷机

一种用于配电箱的自协同除湿机构

一种通信设备运输用防护装置

一种发动机外侧隔音垫

一种高透低衰照明灯配套件生产用冲压模具

一种传感式诊脉仪

一种简易灌肠装置

一种具有定位安装功能的护栏

注塑件切割打标设备

一种墙体支撑装置

一种刮痧器

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

通过音素预测进行视觉语音识别

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务