首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种语音音色转换方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京邮电大学

摘要:本发明提供一种语音音色转换方法和系统,所述方法包括:输入一对训练语音至初始网络模型。利用长短时记忆网络和残差向量量化提取参考音频的音色特征,利用内容向量提取模型去除样本语音的音色,利用基频编码器提取基频特征,利用文本编码器提取样本语音的文本特征。将音色特征、基频特征和文本特征输入先验编码器,将样本语音的线性谱输入后验编码器,利用Flow模型对齐先验编码器和后验编码器的输出,计算概率分布距离作为损失函数,最小化损失以优化各模型的参数。将待转换语音输入训练好的模型中,模型通过声码器输出音色转换后的语音。该方法改进了现有技术中音色未完全转换、生成音色过于机械的问题,可以对任意说话人的音色建模,适用性更广。

主权项:1.一种语音音色转换模型的训练方法,其特征在于,该方法包括以下步骤:获取训练样本集,所述训练样本集中有多个样本,每个样本包含一对音色相同的参考音频和样本语音;获取初始网络模型,所述初始网络模型中,将所述样本语音输入内容向量提取模型以输出内容向量,将所述内容向量输入基于transformer的文本编码器以输出文本特征;将所述参考音频输入长短时记忆网络后通过残差向量量化模块输出音色特征;将所述音色特征和所述内容向量同时输入基频编码器以输出基频特征;将所述音色特征、所述基频特征与所述文本特征一同输入先验编码器以输出先验声学特征;提取所述样本语音的线性谱,将所述线性谱与所述音色特征输入后验编码器以输出的后验声学特征;将所述后验声学特征和所述音色特征输入Flow模型,计算所述Flow模型的输出与所述先验声学特征的距离作为损失;通过最小化所述损失,采用所述训练样本集对所述初始网络模型、所述Flow模型和所述后验编码器的参数进行更新;将更新后所述初始网络模型中所述先验编码器和所述残差向量量化模块的输出连接至所述Flow模型,将所述Flow模型的输出连接至声码器,得到语音音色转换模型。

全文数据:

权利要求:

百度查询: 北京邮电大学 一种语音音色转换方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。