首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种中文文本到个性化语音转换方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东大学

摘要:本发明提出了一种中文文本到个性化语音转换方法及系统,属于语音合成技术领域,用训练好的说话者编码器从说话者的参考语音中提取固定长度的说话者特征嵌入向量,作为说话者的声学特征;利用多说话者语音合成模型Syn,将待转换的文本转换成与说话者特征嵌入向量相对应的梅尔声谱图;将梅尔频谱转换为对应的时域语音波形,输出最终的音频;本发明将自适应条件模块的隐式建模与说话者编码器网络GCNet的显式建模相融合,采用一种端到端反馈约束训练机制,实现对看得见的说话者、看不见的说话者的声音克隆,显著提升合成语音的自然度和相似度。

主权项:1.一种中文文本到个性化语音转换方法,其特征在于,包括:用训练好的说话者编码器从说话者的参考语音中提取固定长度的说话者特征嵌入向量,作为说话者的声学特征;GCNet网络作为说话者编码器;将GCNet网络的整个输出表示为GCXij;WGC,Xij为第i个说话者的第j句话的真实梅尔频谱序列,WGC为卷积层、GRU层、线性层的所有参数;GCXij;WGC经过L2正则化得到说话者话语嵌入向量eij,计算如下: 利用多说话者语音合成模型Syn,将待转换的文本转换成与说话者特征嵌入向量相对应的梅尔声谱图;所述多说话者语音合成模型Syn,由编码器、音素韵律预测器和解码器三个部分组成;音素韵律预测器由自适应条件模块、GST模块、方差适配器组成;方差适配器的输出是解码器的输入;自适应条件模块,包括:AdaptiveModule1、AdaptiveModule2和SpeakerModule;在模型的训练过程中,设置反馈约束,联合说话者编码器一起训练,使多说话者语音合成模型Syn更好地学习说话者的音色、语气信息;其中,AdaptiveModule1提取代表说话者每个话语水平的特征;AdaptiveModule2提取更加细粒度的声学特征;SpeakerModule提取说话者粗粒度的声学特征;将梅尔频谱转换为对应的时域语音波形,输出最终的音频;所述反馈约束,具体为:将解码器输出的合成梅尔频谱,输入到说话者编码器中,将提取的合成梅尔频谱的说话者嵌入向量,与真实音频的说话者嵌入向量之间的距离,作为优化函数,选择均方误差函数作为反馈约束的损失函数,对多说话者语音合成模型Syn进行训练。

全文数据:

权利要求:

百度查询: 山东大学 一种中文文本到个性化语音转换方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。