恭喜厦门她趣信息技术有限公司吕金松获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜厦门她趣信息技术有限公司申请的专利一种语音转化方法、装置、设备及可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119314501B 。
龙图腾网通过国家知识产权局官网在2025-03-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411827075.7,技术领域涉及:G10L21/007;该发明授权一种语音转化方法、装置、设备及可读存储介质是由吕金松;黄海波;陈晓亮;罗浩;王庭杰;阮争志;余承超;杨亮设计研发完成,并于2024-12-12向国家知识产权局提交的专利申请。
本一种语音转化方法、装置、设备及可读存储介质在说明书摘要公布了:本发明提供了一种语音转化方法、装置、设备及可读存储介质,通过先将待转换音频和参考音频通过音频量化器进行压缩量化,以生成待转换音频的语义编码和参考音频的参考编码,接着,将语义编码和参考编码按其梅尔频谱的长度进行对齐,以拼接成一组特征向量,调用音频大语言模型对特征向量进行自回归解码生成输出编码,将参考音频的梅尔频谱输入音色风格网络生成感知向量,将输出编码和感知向量融合生成向量编码;再接着,调用流预测网络结合时间序列embedding和先验分布对向量编码进行处理,以逐步生成梅尔频谱;最后,将梅尔频谱通过声码器还原为目标语音信号,解决了现有的小规模的模型对细微声音特征还原效果不够理想的问题。
本发明授权一种语音转化方法、装置、设备及可读存储介质在权利要求书中公布了:1.一种语音转化方法,其特征在于,包括将待转换音频和参考音频通过音频量化器进行压缩量化,以生成所述待转换音频的语义编码和所述参考音频的参考编码,具体为:对所述将待转换音频和所述参考音频进行傅里叶变换,并提取待转换音频的梅尔频谱和参考音频的梅尔频谱;调用基于卷积网络构成的编码器对所述待转换音频的梅尔频谱和所述参考音频的梅尔频谱同时完成时间维度上的下采样,以生成所述待转换音频的连续特征和所述参考音频的连续特征;通过残差向量量化器对所述待转换音频的连续特征和所述参考音频的连续特征进行逐层处理,生成所述待转换音频的语义编码和所述参考音频的参考编码;其中,所述音频量化器包括梅尔滤波器组、基于卷积网络构成的编码器、以及残差向量量化器;基于所述语义编码的梅尔频谱长度和所述参考编码的梅尔频谱长度对所述语义编码和所述参考编码进行对齐,以拼接成一组特征向量,调用音频大语言模型对所述特征向量进行自回归解码生成输出编码,将所述参考音频的梅尔频谱输入音色风格网络生成感知向量,将所述输出编码和所述感知向量融合生成向量编码,具体为:对所述语义编码和所述参考编码分别进行上采样和插值处理,将其长度还原至对应的原始梅尔频谱长度;将处理后的所述参考编码作为限制条件,与所述语义编码进行拼接,以生成一组特征向量;将所述特征向量输入至包含多层transformer的音频大语言模型中,通过自回归方式生成输出编码;将参考音频的梅尔频谱输入至音色风格感知网络中的因果卷积网络进行特征提取,并利用交叉注意力机制对提取到的特征进行处理并获取潜在向量,对所述潜在向量进行归一化处理得到感知向量;将所述感知向量与所述输出编码进行融合生成所述向量编码;其中,所述音频大语言模型为基于多层Transformer的深度学习模型,所述音色风格网络包括因果卷积网络和交叉注意力机制;将所述向量编码输入流预测网络,结合时间序列embedding,逐步生成目标梅尔频谱,具体为:以先验分布中的一个随机采样、所述向量编码、时间序列embedding作为流预测网络的输入,并以所述向量编码作为条件平均值控制生成目标梅尔频谱,其中,所述流预测网络包括下采样网络、中间网络和上采样网络;将所述目标梅尔频谱通过声码器还原为目标语音信号。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门她趣信息技术有限公司,其通讯地址为:361000 福建省厦门市软件园三期溪西山尾路33号902室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。