首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于多尺度信息的编-解码器结构的跨语种语音转换方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京邮电大学

摘要:本发明公开了一种基于多尺度信息的编‑解码器结构的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段中编码器对声学特征解耦,获得说话人信息表征和内容表征;编码器和解码器之间采用U型连接,将说话人信息表征从编码器传递到解码器;多尺度信息提取网络进一步提取内容表征中的多尺度信息;解码器将获取的说话人信息表征和包含多尺度信息的内容表征进行重构。本发明在训练阶段引入深度监督机制,在不同解码阶段引入监督信号,学习多尺度的重构特征表示,为最终输出重构特征提供多尺度信息;利用多尺度信息提取网络和深度监督机制,使转换语音包含更详细的多尺度信息,进一步提高转换语音的自然度,从而实现高质量的跨语种语音转换。

主权项:1.一种基于多尺度信息的编-解码器结构的跨语种语音转换方法,其特征在于,包括训练阶段和转换阶段;所述训练阶段包括以下步骤:步骤S1:获取大量的训练语料,所述训练语料由不同语种的多名说话人的语音组成;步骤S2:对训练语料进行预处理和声学特征提取,得到对数梅尔频谱特征片段,表征为声学特征X;步骤S3:将所述声学特征X输入到转换模型中进行模型训练,得到重构后的对数梅尔频谱特征DMSC,S,表征为声学特征X′;步骤S4:对转换模型进行训练过程中,使转换模型的深度监督重构损失函数尽量小,设置转换模型的超参数,使得目标函数最小化,直至设置的迭代次数,得到训练好的转换模型;所述转换阶段包括以下步骤:步骤S5:选取不同语种的语音作为待转换语料,从待转换语料中分别选择不同语种的源语音和目标语音,分别提取源语音的对数梅尔频谱特征和目标语音的对数梅尔频谱特征,分别表征为声学特征X1和X2;步骤S6:将所述声学特征X1和X2输入到训练好的转换模型中,重构出转换语音的对数梅尔频谱特征,表征为声学特征X1→2;步骤S7:采用Griffin-Lim声码器,将获得的转换语音的声学特征X1→2转换为语音波形进行输出,获得跨语种语音转换的合成语音。

全文数据:

权利要求:

百度查询: 南京邮电大学 基于多尺度信息的编-解码器结构的跨语种语音转换方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。