恭喜华南理工大学刘丁玮获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜华南理工大学申请的专利一种端到端的音色及情感迁移的中文语音克隆方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115359775B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210846358.0,技术领域涉及:G10L13/02;该发明授权一种端到端的音色及情感迁移的中文语音克隆方法是由刘丁玮;陈铧浚;毛爱华;刘江枫;郭勇彬;张柳坚设计研发完成,并于2022-07-05向国家知识产权局提交的专利申请。
本一种端到端的音色及情感迁移的中文语音克隆方法在说明书摘要公布了:本发明公开了一种端到端的音色及情感迁移的中文语音克隆方法,步骤如下:采集用户录制的中文语音作为训练数据,提取出所需的语音特征;训练语音克隆合成模型,包括音色情感编码器、合成器和声码器三部分;利用训练完成的语音克隆合成模型,根据用户输入的语音或文字内容,生成语音克隆合成模型已有的指定说话人的语音;或根据用户输入的短时语音,快速克隆用户语音中的音色和情感。本发明实现端到端的语音合成与克隆,通过多说话人模型,以同一模型和不同说话人向量嵌入合成不同情感和音色的语音。本发明用短语音产生的说话人嵌入向量,结合使用较多语料训练的生成模型进行语音克隆,实现了能够体现特定说话人音色和情感的语音克隆。
本发明授权一种端到端的音色及情感迁移的中文语音克隆方法在权利要求书中公布了:1.一种端到端的音色及情感迁移的中文语音克隆方法,其特征在于,所述中文语音克隆方法包括以下步骤:S1、采集语音数据:采集多个说话人的多条中文短句语音文件,每个说话人根据给定的文本录制多条短句语音,并对每个语音文件建立其对应的文本标记,其中每条语音不超过15秒,语音总时长不少于30个小时,并在安静的环境下进行语音的录制;S2、数据预处理:对于步骤S1中采集的语音文件进行处理,统一语音文件的采样率、格式、位深和声道数,得到所需的音频文件,同时生成含有录音文件标记、对应语音文本标记和说话人标记的JSON文件;过程如下:S2.1、对多条短句语音文件进行语音处理,将多条短句录音文件转换为音频采样率为16000Hz、音频格式为wav格式、位深为16bits、单声道的音频文件;S2.2、生成含有标记的JSON文件,将文本标记、说话人、说话人ID、语音处理得到的音频文件标记拼接得到一个或多个JSON格式的文件,其中文本标记指的是与音频内容对应的中文文本,说话人ID是指对说话人进行的编号标记,音频文件标记是指说话人和说话内容对应的音频文件名称S3、构建中文语音克隆合成模型:中文语音克隆合成模型包括音色情感编码器、合成器和声码器;S4、构建音色情感编码器:音色情感编码器包括三层依次连接的LSTM网络,计算所述音频文件的频域特征梅尔频谱作为音色情感编码器的输入,得到固定维度的说话人嵌入向量作为音色情感编码器的输出;S5、训练合成器:合成器由依次连接的1个编码器和1个解码器组成,其中编码器包括全连接层组成的预处理网络、词嵌入模块、3个依次连接的一维卷积层和1个双向LSTM网络,将所述JSON文件作为编码器的输入,以编码器隐状态作为编码器的输出;解码器包括1个预处理网络、2层依次连接LSTM网络、1个由线性映射层构成的投影层和1个后处理网络,将编码器隐状态与音色情感编码输出的说话人嵌入向量拼接后作为解码器的输入,得到合成语音的梅尔频谱作为解码器的输出;S6、训练声码器:声码器由并行的WaveRNN声码器和Griffin-Lim声码器组成,将解码器输出的合成语音的梅尔频谱作为声码器的输入,将合成语音的波形预测作为声码器的输出;S7、生成克隆语音:将用户输入的文本或用户输入的语音经过语音识别得到的文本,根据用户指定的说话人使用不同的说话人嵌入向量,经过合成器和声码器得到输出语音;或者语音快速克隆:将用户音频经过预处理,输入音色情感编码器,得到说话人嵌入向量,保存该说话人嵌入向量用于克隆语音的生成。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510640 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。