一种语音音色转换方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京邮电大学

摘要：本发明提供一种语音音色转换方法和系统，所述方法包括：输入一对训练语音至初始网络模型。利用长短时记忆网络和残差向量量化提取参考音频的音色特征，利用内容向量提取模型去除样本语音的音色，利用基频编码器提取基频特征，利用文本编码器提取样本语音的文本特征。将音色特征、基频特征和文本特征输入先验编码器，将样本语音的线性谱输入后验编码器，利用Flow模型对齐先验编码器和后验编码器的输出，计算概率分布距离作为损失函数，最小化损失以优化各模型的参数。将待转换语音输入训练好的模型中，模型通过声码器输出音色转换后的语音。该方法改进了现有技术中音色未完全转换、生成音色过于机械的问题，可以对任意说话人的音色建模，适用性更广。

主权项：1.一种语音音色转换模型的训练方法，其特征在于，该方法包括以下步骤：获取训练样本集，所述训练样本集中有多个样本，每个样本包含一对音色相同的参考音频和样本语音；获取初始网络模型，所述初始网络模型中，将所述样本语音输入内容向量提取模型以输出内容向量，将所述内容向量输入基于transformer的文本编码器以输出文本特征；将所述参考音频输入长短时记忆网络后通过残差向量量化模块输出音色特征；将所述音色特征和所述内容向量同时输入基频编码器以输出基频特征；将所述音色特征、所述基频特征与所述文本特征一同输入先验编码器以输出先验声学特征；提取所述样本语音的线性谱，将所述线性谱与所述音色特征输入后验编码器以输出的后验声学特征；将所述后验声学特征和所述音色特征输入Flow模型，计算所述Flow模型的输出与所述先验声学特征的距离作为损失；通过最小化所述损失，采用所述训练样本集对所述初始网络模型、所述Flow模型和所述后验编码器的参数进行更新；将更新后所述初始网络模型中所述先验编码器和所述残差向量量化模块的输出连接至所述Flow模型，将所述Flow模型的输出连接至声码器，得到语音音色转换模型。

全文数据：

权利要求：

百度查询：北京邮电大学一种语音音色转换方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高弹性PVDF微孔滤膜卷膜设备

下一篇：一种便于清洗的木材切割设备

相关技术

一种高弹性PVDF微孔滤膜卷膜设备

一种便于清洗的木材切割设备

一种光纤连接器

降噪构件和具有降噪构件的用于制动系统的电磁阀

一种清洁装置及抽水系统

一类适用于多种波长光刻的联苯类非化学放大型光刻胶及其制备方法和应用

一种改进的无动力精馏工艺

助力自行车中置驱动装置的安装结构和助力自行车

一种优化机器人外呼系统打断效果的方法及装置

晶硅材料表面处理生产及检测装置

一种避免交叉污染的土壤检测装置

一种多功能电源变换装置的控制方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种语音音色转换方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务