买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:暗物质(北京)智能科技有限公司
摘要:本发明公开了一种音色和风格深度解耦的语音风格迁移系统及方法,涉及语音合成技术领域,该系统包括:音色风格解耦子系统和风格迁移子系统,其中:音色风格解耦子系统,用于从语音合成数据中提取出音色无关的风格数据,供风格迁移子系统进行风格建模及音频合成;风格迁移子系统,用于结合说话人信息生成具有目标风格和音色的音频。利用本发明可对语音中风格和身份信息的充分解耦,从根本上解决目前语音风格迁移中存在的音色泄露和迁移不稳定的问题,便于实现语音库中理想的风格可控迁移,使库中的每个说话人具备库中所有的风格的发音能力,有助于提升目前语音合成的应用场景。
主权项:1.一种音色和风格深度解耦的语音风格迁移系统,其特征在于,该系统包括:音色风格解耦子系统和风格迁移子系统,其中:所述音色风格解耦子系统,用于从语音合成数据中提取出音色无关的风格数据,供风格迁移子系统进行风格建模及音频合成;所述风格迁移子系统,用于结合说话人信息生成具有目标风格和音色的音频;所述音色风格解耦子系统中利用wenetASR模型从输入的语音合成数据中提取只包含风格不包含音色的BN特征;wenetASR模型的编码器通过若干个conformerblock构建;使用中文语音识别数据集训练所述wenetASR模型,从所述wenetASR模型提取出的所述BN特征作为风格特征供风格迁移子系统训练;通过语音转换模型验证所述BN特征只包含风格不包含音色信息;所述语音转换模型包括:BN编码器,音色编码器和解码器;其中:所述BN编码器包括多个conformerblock,将输入音频的BN特征处理为内容和风格的隐特征;所述音色编码器包括多层卷积和池化层,将目标说话人的参考音频处理为固定维度的说话人向量;所述解码器包括多个conformerblock,结合所述隐特征和所述说话人向量进行解码生成最终的转换音频;所述风格迁移子系统包括:文本编码器、梅尔编码器、风格预测器、时长预测器、BN解码器和梅尔解码器;其中所述文本编码器,将输入文本生成文本隐特征;所述梅尔编码器,处理辅助风格建模的与文本时间对齐的梅尔频谱,生成辅助风格信息隐特征;所述风格预测器,以文本和风格id预测所述梅尔编码器输出的隐特征;所述时长预测器,预测文本序列的时长,依据时长复制规整文本序列中每个文本隐特征,使最后文本隐特征长度和BN特征一致;所述BN解码器,从融合的文本和辅助风格信息隐特征中生成BN风格特征;所述梅尔解码器,将所述BN风格特征结合说话人信息生成具有目标风格和目标音色的梅尔频谱声学特征。
全文数据:
权利要求:
百度查询: 暗物质(北京)智能科技有限公司 一种音色和风格深度解耦的语音风格迁移系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。