首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于唱本的语音合成方法、装置、可读介质和电子设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京有竹居网络技术有限公司

摘要:本公开涉及一种基于唱本的语音合成方法、装置、可读介质和电子设备,涉及电子信息处理技术领域,该方法包括:获取目标唱本中包括的目标文本和目标文本对应目标乐谱,提取目标文本对应的音素序列,和目标乐谱对应的音高序列,音高序列包括:音素序列中每个音素对应的音高,根据音素序列,通过预先训练的时长预测模型预测时长序列,时长序列包括:音素序列中每个音素对应的时长,根据音素序列、音高序列和时长序列,通过预先训练的语音合成模型合成目标文本对应的符合目标乐谱的目标音频,且目标音频与时长序列匹配。本公开能够根据唱本中包括的文本和乐谱,确定对应的音素序列、音高序列和时长序列,从而合成符合唱本的音频,提高了音频的表现力。

主权项:1.一种基于唱本的语音合成方法,其特征在于,所述方法包括:获取目标唱本中包括的目标文本和所述目标文本对应目标乐谱;提取所述目标文本对应的音素序列,和所述目标乐谱对应的音高序列,所述音高序列包括:所述音素序列中每个音素对应的音高;根据所述音素序列,通过预先训练的时长预测模型预测时长序列,所述时长序列包括:所述音素序列中每个音素对应的时长;根据所述音素序列、所述音高序列和所述时长序列,通过预先训练的语音合成模型合成所述目标文本对应的符合所述目标乐谱的目标音频,且所述目标音频与所述时长序列匹配;所述语音合成模型和所述时长预测模型是通过如下方式联合训练获得的:获取训练唱本中包括的训练文本、所述训练文本对应的标注数据、总时长和训练乐谱;根据所述标注数据确定所述训练文本对应的训练音素序列和训练时长序列,并根据所述训练乐谱确定训练音高序列,所述训练音高序列包括:所述训练音素序列中每个训练音素对应的音高,所述训练时长序列包括:每个所述训练音素对应的时长;将所述训练音素序列输入所述时长预测模型,并根据所述时长预测模型的输出和所述总时长,训练所述时长预测模型;将所述训练音素序列、所述训练音高序列和所述训练时长序列,输入所述语音合成模型,并根据所述语音合成模型的输出与所述训练文本对应的训练音频,训练所述语音合成模型;其中,所述根据所述语音合成模型的输出与所述训练文本对应的训练音频,训练所述语音合成模型,包括:在所述语音合成模型输出的初始音频中按照预设规则抽取第一数量个初始音频段,并在所述训练音频中抽取每个所述初始音频段对应的训练音频段,每个所述初始音频段包括所述初始音频中连续的不同数量个音频帧;将每个所述初始音频段输入对应的判别器,以得到所述判别器输出的初始判别结果,并将该初始音频段对应的所述训练音频段输入所述判别器,以得到所述判别器输出的训练判别结果;根据所述初始音频和所述训练音频,确定第一损失;根据每个所述初始音频段对应的所述初始判别结果和所述训练判别结果,确定第二损失,所述第二损失用于训练所述判别器;根据所述第一损失和所述第二损失确定合成损失。

全文数据:

权利要求:

百度查询: 北京有竹居网络技术有限公司 基于唱本的语音合成方法、装置、可读介质和电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。