首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

通过音素预测进行视觉语音识别 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:渊慧科技有限公司

摘要:用于执行视觉语音识别的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括:接收包括多个视频帧的视频,其中每个视频帧描绘双唇;使用视觉语音识别神经网络来处理所述视频,以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应的输出分数,其中所述视觉语音识别神经网络包括一个或多个体积卷积神经网络层和一个或多个时间‑聚合神经网络层;其中可能标记的词汇表包括多个音素;以及使用所述输出分数来确定由所述视频中描绘的双唇所表达的词的序列。

主权项:1.一种用于视觉语音识别的方法,所述方法包括:接收包括多个视频帧的视频,其中每个视频帧描绘双唇;根据视觉语音识别神经网络参数的当前值使用视觉语音识别神经网络处理所述视频,以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应的输出分数,其中,视觉语音识别神经网络包括:i三维卷积模块,该三维卷积模块包括多个体积卷积神经网络层的序列,和ii时间模块;其中,所述三维卷积模块使用所述多个体积卷积神经网络层的序列的多个三维卷积过滤器来处理描绘双唇的多个视频帧,以针对描绘双唇的多个视频帧中的每个视频帧生成相应的时空特征向量;其中,所述时间模块处理与描绘双唇的视频帧相对应的时空特征向量,以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应输出分数;其中可能标记的词汇表包括多个音素;以及使用针对输出序列中的每个输出位置的可能标记的词汇表中的每个标记的相应输出分数,确定由视频中描绘的双唇所表达的词的序列。

全文数据:

权利要求:

百度查询: 渊慧科技有限公司 通过音素预测进行视觉语音识别

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。