恭喜浙江大学;杭州一知智能科技有限公司赵洲获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浙江大学;杭州一知智能科技有限公司申请的专利一种无约束唇语到语音合成方法、系统和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114974206B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210677656.1,技术领域涉及:G10L13/02;该发明授权一种无约束唇语到语音合成方法、系统和存储介质是由赵洲;王泳淇;佘清顺;陈哲乾设计研发完成,并于2022-06-15向国家知识产权局提交的专利申请。
本一种无约束唇语到语音合成方法、系统和存储介质在说明书摘要公布了:本发明公开了一种无约束唇语到语音合成方法、系统和存储介质,属于语音合成领域。通过视觉编码器从唇语视频序列中提取并编码得到视觉特征向量;将视觉特征向量的长度调整至对应音频内容的长度,得到与对应音频内容对齐后的视觉特征向量;通过声学编码器将对齐后的视觉特征向量转换成对应的声学特征向量;根据声学特征向量生成对应的梅尔频谱,结合真实的梅尔频谱对所述的视觉编码器和声学编码器进行训练;固定视觉编码器和声学编码器的参数,训练音频生成器,利用训练好的音频生成器将声学特征向量合成音频波形,转化为预测音频。本发明可以直接在无约束的视频上以更快地的推理速度合成更高质量的语音。
本发明授权一种无约束唇语到语音合成方法、系统和存储介质在权利要求书中公布了:1.一种无约束唇语到语音合成方法,其特征在于,包括如下步骤:S1:通过视觉编码器从唇语视频序列中提取并编码得到视觉特征向量;所述的视觉编码器包括视觉标记层、空间transformer和时序transformer;所述的步骤S1包括:S1-1:获取唇语视频序列V={v1,v2,……,vn},其中vi代表视频序列中第i帧,n代表视频序列长度;利用视觉标记层提取唇语视频序列V的局部特征,并生成包含时空信息的视觉标记;并对视觉标记进行位置编码,得到视觉标记序列T={t1,t2,……,tn},其中ti代表视频序列中第i帧的视觉标记;S1-2:通过空间transformer对步骤S1-1得到的视觉标记序列T进行相邻视觉标记之间的空间相关性编码,得到空间编码后的视觉标记序列T′;S1-3:将步骤S1-2得到的空间编码后的视觉标记序列T′中具有相同时序索引的多个隐藏层线性映射成一个低维的单个隐藏层,并进行位置编码,得到视觉特征向量F′;S1-4:通过时序transformer对步骤S1-3得到的视觉特征向量F′进行时序相关性编码,将时序编码后的视觉特征向量作为最终视觉特征向量F;S2:将步骤S1得到的视觉特征向量的长度调整至对应音频内容的长度,得到与对应音频内容对齐后的视觉特征向量;S3:通过声学编码器将步骤S2得到的对齐后的视觉特征向量转换成对应的声学特征向量;S4:根据步骤S3得到的声学特征向量生成对应的梅尔频谱,结合真实的梅尔频谱对所述的视觉编码器和声学编码器进行训练;S5:固定视觉编码器和声学编码器的参数,训练音频生成器,利用训练好的音频生成器将步骤S3得到的声学特征向量合成音频波形,转化为预测音频。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学;杭州一知智能科技有限公司,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。