买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:科大讯飞股份有限公司
摘要:本发明提供一种语音合成模型训练方法、语音合成方法和装置,其中方法包括:确定初始合成模型,所述初始合成模型包括时长预测模块,所述时长预测模块用于预测文本中各音素在合成语音中的时长;基于所述初始合成模型,确定样本文本的合成语音,基于所述样本文本的样本语音和所述合成语音之间的差距,对所述时长预测模块的参数进行迭代更新,得到训练完成的语音合成模型。本发明提供的方法和装置,能够通过初始合成模型中的时长预测模块对样本文本中各音素在合成语音中的时长进行预测,避免了时长累计误差的问题,提高了语音合成模型在实际应用中的性能和准确率。
主权项:1.一种语音合成模型的训练方法,其特征在于,包括:确定初始合成模型,所述初始合成模型包括时长预测模块,所述时长预测模块用于预测文本中各音素在合成语音中的时长;基于所述初始合成模型,确定样本文本的合成语音,基于所述样本文本的样本语音和所述合成语音之间的差距,对所述时长预测模块的参数进行迭代更新,引导所述时长预测模块往预测时长接近样本语音中各音素的实际时长的方向迭代更新,无需参考标注时长,得到训练完成的语音合成模型;所述基于所述初始合成模型,确定样本文本的合成语音,包括:基于所述初始合成模型中的编码模块,通过一个多层多头自注意力网络对所述样本文本进行语言学非线性特征编码,得到所述样本文本的音素序列中各音素的特征;基于所述时长预测模块和所述各音素的特征,根据各音素及其相邻的多个音素特征对所述各音素在合成语音中的时长进行预测,得到所述各音素的预测时长;在时长预测时,将所述各音素的特征进行二次编码,根据二次编码后得到的包含时长信息的各音素的特征对各因素的时长进行预测;时长预测模块通过一个三层双向LSTM网络对编码模块的输出进行二次编码,编码后的隐层矢量包含有关时长的信息,再通过一个前馈神经网络预测每一个音素的时长;基于所述初始合成模型中的上采样模块,将所述各音素的特征上采样,得到各音素的上采样特征,所述上采样特征的长度基于所述预测时长确定;基于所述初始合成模型中的解码模块,对所述各音素的上采样特征进行声学解码,得到所述合成语音;所述基于所述初始合成模型中的上采样模块,将所述各音素的特征上采样,得到各音素的上采样特征,包括:基于所述初始合成模型中的上采样模块,以及任一音素在对应预测时长中各时刻的权重,对所述任一音素的特征上采样,得到所述任一音素的上采样特征;所述任一音素在对应预测时长中各时刻的权重基于所述任一音素在对应预测时长中的分布情况确定。
全文数据:
权利要求:
百度查询: 科大讯飞股份有限公司 语音合成模型训练方法、语音合成方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。