恭喜平安科技(深圳)有限公司张旭龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜平安科技(深圳)有限公司申请的专利一种语音合成模型的训练方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113889072B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111138448.6,技术领域涉及:G10L13/027;该发明授权一种语音合成模型的训练方法、装置、设备及介质是由张旭龙;王健宗设计研发完成,并于2021-09-27向国家知识产权局提交的专利申请。
本一种语音合成模型的训练方法、装置、设备及介质在说明书摘要公布了:本申请涉及人工智能技术,提供一种语音合成模型的训练方法、装置、设备及介质。方法包括:获取训练样本,训练样本包括第一训练文本信息以及训练语音信息;通过GST模型对第一训练文本信息进行情感识别处理,得到情感向量,并将情感向量嵌入TTS模型;通过TTS模型对第一训练文本信息和情感向量进行语音合成处理,得到预测语音信息;将预测语音信息和训练语音信息进行比较,得到语音合成损失值;基于语音合成损失值对语音合成模型中的TTS模型的参数和GST模型的参数进行调整,以对语音合成模型进行训练,得到训练后的语音合成模型,可实现在不对训练样本进行情感标注的前提下,仍然可以使用TTS模型将文字转为情感化语音,提高语音合成模型的训练效率。
本发明授权一种语音合成模型的训练方法、装置、设备及介质在权利要求书中公布了:1.一种语音合成模型的训练方法,其特征在于,包括:获取训练样本,所述训练样本包括第一训练文本信息以及所述第一训练文本信息对应的训练语音信息;通过语音合成模型中的全局风格标签GST模型对所述第一训练文本信息进行情感识别处理,得到所述第一训练文本信息的情感向量,并将所述第一训练文本信息的情感向量嵌入所述语音合成模型中的文本语音转换TTS模型;所述情感识别处理包括:通过所述GST模型中的参考编码器对所述第一训练文本信息进行编码,得到参考向量;使用注意机制计算所述参考向量和初始化向量之间的相似度,得到一组权重值;将所述一组权重值与所述初始化向量进行加权运算,得到所述第一训练文本信息的情感向量;通过所述TTS模型对所述第一训练文本信息进行语言学习,得到所述第一训练文本信息的底层结构特征;通过所述TTS模型对所述第一训练文本信息的底层结构特征和所述第一训练文本信息的情感向量进行对齐处理,得到所述第一训练文本信息对应的预测语音信息;所述TTS模型包括注意力机制模块,所述注意力机制模块包括压缩和激励网络SENet或者基于卷积块的注意机制CBAM,且所述注意力机制模块基于当前任务需求确定;所述SENet基于各特征通道的重要程度增强对当前任务有用的特征并抑制对当前任务用处不大的特征,所述CBAM包含通道注意力模块CAM和空间注意力模块SAM,以用于分别进行通道与空间上的注意机制;将所述第一训练文本信息对应的预测语音信息和所述训练语音信息进行比较,得到语音合成损失值;基于所述语音合成损失值对所述TTS模型的参数和GST模型的参数进行调整,以对所述语音合成模型进行训练,得到训练后的语音合成模型,所述训练后的语音合成模型包括训练后的GST模型和训练后的TTS模型;在第二电子设备运行有即时通讯客户端,且在用户驾车或者处于颠簸环境场景中,若所述即时通讯客户端中的会话界面包括至少一个文本信息,则响应于针对所述文本信息的语音转换指令,获取所述语音转换指令对应的目标文本信息,以利用所述训练后的语音合成模型确定目标文本信息对应的预测语音信息,并播放所述预测语音信息;在智能诊疗或者远程会诊过程中,若检测到病人无法挪动身体,且第二电子设备与病人之间达到预设距离,则将对端用户输入的文本信息作为目标文本信息,以利用训练后的语音合成模型确定目标文本信息对应的预测语音信息,并播放所述预测语音信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人平安科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。