一种中文文本到个性化语音转换方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山东大学

摘要：本发明提出了一种中文文本到个性化语音转换方法及系统，属于语音合成技术领域,用训练好的说话者编码器从说话者的参考语音中提取固定长度的说话者特征嵌入向量，作为说话者的声学特征；利用多说话者语音合成模型Syn，将待转换的文本转换成与说话者特征嵌入向量相对应的梅尔声谱图；将梅尔频谱转换为对应的时域语音波形，输出最终的音频；本发明将自适应条件模块的隐式建模与说话者编码器网络GCNet的显式建模相融合，采用一种端到端反馈约束训练机制，实现对看得见的说话者、看不见的说话者的声音克隆，显著提升合成语音的自然度和相似度。

主权项：1.一种中文文本到个性化语音转换方法，其特征在于，包括：用训练好的说话者编码器从说话者的参考语音中提取固定长度的说话者特征嵌入向量，作为说话者的声学特征；GCNet网络作为说话者编码器；将GCNet网络的整个输出表示为GCXij；WGC，Xij为第i个说话者的第j句话的真实梅尔频谱序列，WGC为卷积层、GRU层、线性层的所有参数；GCXij；WGC经过L2正则化得到说话者话语嵌入向量eij，计算如下：利用多说话者语音合成模型Syn，将待转换的文本转换成与说话者特征嵌入向量相对应的梅尔声谱图；所述多说话者语音合成模型Syn，由编码器、音素韵律预测器和解码器三个部分组成；音素韵律预测器由自适应条件模块、GST模块、方差适配器组成；方差适配器的输出是解码器的输入；自适应条件模块，包括：AdaptiveModule1、AdaptiveModule2和SpeakerModule；在模型的训练过程中，设置反馈约束，联合说话者编码器一起训练，使多说话者语音合成模型Syn更好地学习说话者的音色、语气信息；其中，AdaptiveModule1提取代表说话者每个话语水平的特征；AdaptiveModule2提取更加细粒度的声学特征；SpeakerModule提取说话者粗粒度的声学特征；将梅尔频谱转换为对应的时域语音波形，输出最终的音频；所述反馈约束，具体为：将解码器输出的合成梅尔频谱，输入到说话者编码器中，将提取的合成梅尔频谱的说话者嵌入向量，与真实音频的说话者嵌入向量之间的距离，作为优化函数，选择均方误差函数作为反馈约束的损失函数，对多说话者语音合成模型Syn进行训练。

全文数据：

权利要求：

百度查询：山东大学一种中文文本到个性化语音转换方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种通信设备运输用防护装置

下一篇：一种无纺布成卷机

相关技术

一种通信设备运输用防护装置

一种无纺布成卷机

一种服装面料用展平装置

一种开合方便的杯盖及应用该杯盖的水杯

刻蚀机真空管道同步测量夹具

一种气动元件运输保护装置

铁路平板车用移动端板

垂直度检测装置

电缆耐压测试机构

一种六足兼轮式切割救援机器

一种汽车发动机机油过滤结构

一种过滤式水质分析检测仪

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种中文文本到个性化语音转换方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务