首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多特征建模和粒度感知的情感语音转换方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京邮电大学

摘要:本发明公开了一种基于多特征建模和粒度感知的情感语音转换方法,包括:预训练阶段、微调阶段和转换阶段,其中预训练阶段和微调阶段用于有效实现情感语音语言内容和情感韵律的充分解纠缠,转换阶段则利用训练好的模型分别提取源情感语音的语言内容和目标情感语音的情感韵律以完成测试语料情感状态的转换。为了进一步地提高转换情感语音的情感饱和度,实现高表现力的情感转换效果,本发明还提出了多韵律特征建模和粒度感知的改进方法,分别从韵律特征的多样性和粒度感知性方面来优化韵律空间,从而能够挖掘出更多的韵律信息,有效提升了转换情感语音的情感饱和度。

主权项:1.一种基于多特征建模和粒度感知的情感语音转换方法,其特征在于,包括预训练阶段、微调阶段和转换阶段;所述预训练阶段包括以下步骤:步骤S1:获取大量的训练语料,所述训练语料由多名说话人的语句组成;步骤S2:对训练语料进行预处理和声学特征提取,得到全部训练语料的声学梅尔频谱特征A和对应训练语料的音素文本T;步骤S3:将所述声学梅尔频谱特征A和音素文本T输入序列到序列的转换模型,进行转换模型预训练;步骤S4:在转换模型预训练过程中,最小化各类损失函数,使得总目标函数最小化,直至设置的迭代次数,得到预训练好的转换模型;所述微调阶段包括以下步骤:步骤S5:获取有限的情感训练语料,由一名说话人的多种情感语句组成;步骤S6:对情感训练语料进行预处理和特征提取,得到情感训练语料的声学梅尔频谱特征A′和对应语料的音素文本T′,以及对应的基频包络P;步骤S7:基于预训练好的转换模型,使用情感训练语料进行微调训练,将声学梅尔频谱特征A′和音素文本T′,输入转换模型中进行微调训练,并进行多韵律特征建模和粒度感知;步骤S8:对转换模型进行微调训练过程中,最小化各类损失函数,使得总目标函数最小化,直至设置的迭代次数,得到微调训练好的情感语音转换模型;所述转换阶段包括以下步骤:步骤S9:选取中性情感语句和非中性情感语句作为待转换语料,其中中性情感语句作为源情感语料,非中性情感语句作为目标情感语料,分别提取源情感语料和目标情感语料的梅尔频谱特征作为输入声学特征As和At,且提取目标情感语料的基频包络Pt;步骤S10:将As、At和Pt输入到微调训练好的情感语音转换模型中,转换出待转换语料的对数梅尔频谱特征Ast;步骤S11:采用Griffin-Lim声码器,将获得的对数梅尔频谱特征Ast转换为语音波形进行输出,获得情感语音转换的合成语音。

全文数据:

权利要求:

百度查询: 南京邮电大学 一种基于多特征建模和粒度感知的情感语音转换方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。