一种高表现力歌唱声音合成模型训练方法、合成方法及装置

导航：龙图腾网> 最新专利技术> 一种高表现力歌唱声音合成模型训练方法、合成方法及装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明提供一种高表现力歌唱声音合成模型训练方法、合成方法及装置，获取歌词文本以及由真实歌声预测得到的乐谱序列；将歌词文本转换为音素信息，从歌声音频数据中提取歌声的物理信息并分析，得到强度信息；将音素信息和乐谱序列的属性信息输入文本编码器生成文本嵌入序列，由时长预测器确定每个字的持续时长，将文本嵌入序列和持续时长输入长度约束器生成语音表征；将语音表征输入基频解码器和梅尔解码器生成基频和梅尔谱；将基频、梅尔谱和语音表征相加得到混合嵌入向量，将混合嵌入向量输入Transformer和连续语音单元表征模块生成连续语音单元向量，由声码器合成预测歌声。本发明提供的方法对各属性进行细粒度建模，避免耦合，合成高质量歌声。

主权项：1.一种高表现力歌唱声音合成模型训练方法，其特征在于，所述方法包括以下步骤：获取待合成的歌词文本，以及由真实歌声预测得到的乐谱序列；将所述歌词文本转换为音素信息，从所述真实歌声的音频数据中提取歌声的物理信息，并对所述物理信息进行分析，预测所述乐谱序列中各音符的强度信息，包括：计算所述歌词文本中每个字真实演唱时的持续时长，根据所述持续时长计算每个字的基频，根据每个字的基频计算其谐波能量，将所述谐波能量除以持续时长，得到时间平均谐波能量，将每个字的时间平均谐波能量预处理后映射至预设范围，生成相应的强度信息；将所述音素信息和所述乐谱序列的属性信息输入初始歌声合成模型中，以合成预测歌声；其中，所述初始歌声合成模型包括文本编码器、时长预测期、长度约束器、基频解码器、梅尔解码器、Transformer、连续语音单元表征模块、信号处理模块和声码器；将所述音素信息和所述属性信息输入所述文本编码器，生成文本嵌入序列；将所述文本嵌入序列输入所述时长预测器，确定每个字的持续时长；将所述文本嵌入序列和每个字的持续时长输入所述长度约束器，生成语音表征；将所述语音表征分别输入所述基频解码器和所述梅尔解码器，生成基频和梅尔谱；将所述基频、所述梅尔谱和所述语音表征相加，得到混合嵌入向量；将所述混合嵌入向量依次输入所述Transformer和所述连续语音单元表征模块，生成连续语音单元向量；将所述连续语音单元向量、所述基频和所述谐波能量输入信号处理模块，生成初级语音表示；将所述连续语音单元向量输入所述声码器，以所述初级语音表示为所述声码器的先验条件，合成预测歌声；所述乐谱序列的属性信息至少包括音高信息和持续时长信息；根据所述歌词文本和所述乐谱序列对所述初始歌声合成模型进行训练，直至达到预设性能要求，得到最终的歌唱声音合成模型。

全文数据：

权利要求：

百度查询：上海艾特欧数字娱乐科技有限公司一种高表现力歌唱声音合成模型训练方法、合成方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种目标用户确定方法及装置

下一篇：基于心脑耦合分析的心理压力评估方法及系统

相关技术

一种目标用户确定方法及装置

基于心脑耦合分析的心理压力评估方法及系统

一种基于信息物理系统的热连轧活套张力控制方法

一种煤矿采空区充填后的覆岩移动变形监测装置及方法

客服系统的控制方法、设备及计算机可读存储介质

一种训练数据生成方法、计算机设备和程序产品

一种基于传感器的憎水率智能化测定仪

基于大模型的电力电缆故障预警系统及方法

一种虚拟现实环境下的信息交互方法、装置、设备及介质

承载装置以及托举系统

1200nm窄线宽激光治疗数据处理方法及系统

3,7-二甲基黄嘌呤的制备方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种高表现力歌唱声音合成模型训练方法、合成方法及装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务