买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供一种高表现力歌唱声音合成模型训练方法、合成方法及装置,获取歌词文本以及由真实歌声预测得到的乐谱序列;将歌词文本转换为音素信息,从歌声音频数据中提取歌声的物理信息并分析,得到强度信息;将音素信息和乐谱序列的属性信息输入文本编码器生成文本嵌入序列,由时长预测器确定每个字的持续时长,将文本嵌入序列和持续时长输入长度约束器生成语音表征;将语音表征输入基频解码器和梅尔解码器生成基频和梅尔谱;将基频、梅尔谱和语音表征相加得到混合嵌入向量,将混合嵌入向量输入Transformer和连续语音单元表征模块生成连续语音单元向量,由声码器合成预测歌声。本发明提供的方法对各属性进行细粒度建模,避免耦合,合成高质量歌声。
主权项:1.一种高表现力歌唱声音合成模型训练方法,其特征在于,所述方法包括以下步骤:获取待合成的歌词文本,以及由真实歌声预测得到的乐谱序列;将所述歌词文本转换为音素信息,从所述真实歌声的音频数据中提取歌声的物理信息,并对所述物理信息进行分析,预测所述乐谱序列中各音符的强度信息,包括:计算所述歌词文本中每个字真实演唱时的持续时长,根据所述持续时长计算每个字的基频,根据每个字的基频计算其谐波能量,将所述谐波能量除以持续时长,得到时间平均谐波能量,将每个字的时间平均谐波能量预处理后映射至预设范围,生成相应的强度信息;将所述音素信息和所述乐谱序列的属性信息输入初始歌声合成模型中,以合成预测歌声;其中,所述初始歌声合成模型包括文本编码器、时长预测期、长度约束器、基频解码器、梅尔解码器、Transformer、连续语音单元表征模块、信号处理模块和声码器;将所述音素信息和所述属性信息输入所述文本编码器,生成文本嵌入序列;将所述文本嵌入序列输入所述时长预测器,确定每个字的持续时长;将所述文本嵌入序列和每个字的持续时长输入所述长度约束器,生成语音表征;将所述语音表征分别输入所述基频解码器和所述梅尔解码器,生成基频和梅尔谱;将所述基频、所述梅尔谱和所述语音表征相加,得到混合嵌入向量;将所述混合嵌入向量依次输入所述Transformer和所述连续语音单元表征模块,生成连续语音单元向量;将所述连续语音单元向量、所述基频和所述谐波能量输入信号处理模块,生成初级语音表示;将所述连续语音单元向量输入所述声码器,以所述初级语音表示为所述声码器的先验条件,合成预测歌声;所述乐谱序列的属性信息至少包括音高信息和持续时长信息;根据所述歌词文本和所述乐谱序列对所述初始歌声合成模型进行训练,直至达到预设性能要求,得到最终的歌唱声音合成模型。
全文数据:
权利要求:
百度查询: 上海艾特欧数字娱乐科技有限公司 一种高表现力歌唱声音合成模型训练方法、合成方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。