买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:清华大学深圳国际研究生院
摘要:本发明公开了一种端到端歌声合成方法、计算机设备及存储介质,所述合成方法包括如下步骤:S1、从给定乐谱中获取歌词文本,对应乐谱音高以及乐谱时长;并从歌词中提取相应的语义信息并且将其作为模型输入的一部分;S2、将歌词文本转换为对应的音素序列后,与乐谱音高序列以及乐谱时长序列一起输入预构建的歌声合成模型第一输入端;S3、将语义信息输入预构建的歌声合成模型的第二输入端;S4、通过歌声合成模型合成对应真人演唱的歌声。本发明能够提升合成歌声的自然度和表现力,并且可以应用于任意的歌声合成方案中。
主权项:1.一种端到端歌声合成方法,其特征在于,包括如下步骤:S1、从给定乐谱中获取歌词文本,对应乐谱音高以及乐谱时长;并从歌词中提取相应的语义信息并且将其作为模型输入的一部分;步骤S1中,采用语义特征提取模块从歌词中提取相应的语义信息,语义特征提取模块包含三个部分:预训练的语义表征模型、上采样模块以及文本编码器模块;所述语义特征提取模块接受一句歌词的字符序列作为输入,并且输出音素级别的语义特征序列;语义信息由所述预训练的语义表征模型提取,输入为字级别的歌词序列,输出为字级别的语义特征序列;所述上采样模块将字级别的语义特征序列扩增为音素级别;并经过所述文本编码器模块得到音素级别语义特征序列;所述上采样模块将字级别的语义特征序列扩增为音素级别包括如下步骤:通过字-音素转换模块将每个字转换为对应的音素,得到每个字所对应的音素数量;根据每个字的音素数量,通过复制的方法将每个字级别的特征扩增为音素级别的特征;其次再根据数据集所提供的音素序列,记录其中静音段SP和吸气AP标识的位置,并且在扩增后的音素序列对应位置添加全零向量;S2、将歌词文本转换为对应的音素序列后,与乐谱音高序列以及乐谱时长序列一起输入预构建的歌声合成模型第一输入端;S3、将语义信息输入预构建的歌声合成模型的第二输入端;S4、通过歌声合成模型合成对应真人演唱的歌声。
全文数据:
权利要求:
百度查询: 清华大学深圳国际研究生院 端到端歌声合成方法、计算机设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。