Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜成都潜在人工智能科技有限公司;成都龙渊网络科技有限公司尹学渊获国家专利权

恭喜成都潜在人工智能科技有限公司;成都龙渊网络科技有限公司尹学渊获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜成都潜在人工智能科技有限公司;成都龙渊网络科技有限公司申请的专利一种生成个性化音色的歌唱合成方法、装置及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114724539B

龙图腾网通过国家知识产权局官网在2025-05-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210434225.2,技术领域涉及:G10L13/033;该发明授权一种生成个性化音色的歌唱合成方法、装置及存储介质是由尹学渊;肖钦引;刘鑫忠设计研发完成,并于2022-04-24向国家知识产权局提交的专利申请。

一种生成个性化音色的歌唱合成方法、装置及存储介质在说明书摘要公布了:本发明涉及语音信号处理及人工智能技术领域,具体而言,涉及一种生成个性化音色的歌唱合成方法、装置及存储介质,该方法的步骤包括:获取历史声学特征数据,建立声学特征训练模型,通过历史声学特征数据对声学特征训练模型进行训练,得到完成训练的声学特征训练模型;输入设定声学特征数据,经预处理后,得到音素数据序列,根据音素的持续时间对音素进行扩充,形成音素扩充序列,对音素扩充序列进行处理,使其与设定声学特征数据的长度一致,之后整合并输入至完成训练的声学特征训练模型内进行计算,得到声谱图,通过声码器对声谱图进行合成,完成个性化音色的生成,其中,音素数据序列包括各个音素的持续时间与音高。

本发明授权一种生成个性化音色的歌唱合成方法、装置及存储介质在权利要求书中公布了:1.一种生成个性化音色的歌唱合成方法,其特征在于,包括如下内容:获取历史声学特征数据,建立声学特征训练模型,通过历史声学特征数据对声学特征训练模型进行训练,得到完成训练的声学特征训练模型;输入设定声学特征数据,经预处理后,得到音素数据序列,根据音素的持续时间对音素进行扩充,形成音素扩充序列,对音素扩充序列进行处理,使其与设定声学特征数据的长度一致,之后整合并输入至完成训练的声学特征训练模型内进行计算,得到声谱图,通过声码器对声谱图进行合成,完成个性化音色的生成,其中,音素数据序列包括各个音素的持续时间与音高;还包括乐谱编码器:将乐谱的音素、持续时间和音高作为输入,将位置编码与音乐数据嵌入一起经过多个Transformer层得到了编码器的输出结果;方差适配器:将结果输入由多层CNN、Linear组成的持续时间处理器中,得到每个音素的隐藏序列提供包括持续时间、音高和能量在内的方差信息,根据其信息扩展编码器向量序列;梅尔频谱图解码器:将扩展过后的向量序列输入解码器中,将位置编码与输入的向量序列一起再经过多个Transformer层和Linear层得到输入声码器的梅尔频谱图,最后使用声码器合成歌唱;乐谱通常包括音素、持续时间、音高元素是歌唱必需输入元素,将歌曲转换为音素序列,歌唱中的每个字被分解成多个音素,音高按照乐理知识的标准转换音高值,持续时间是每个音素的帧数;把这三个输入因素分别嵌入到相同维度的稠密向量,与位置编码运算叠加在一起,经过多个一维卷积网络得到编码;通过对speakerembedding来捕获适配声音中的丰富声学特征,从不同粒度的声学特征中训练模型中部分参数,在训练阶段提升模型的泛化能力,使用大批量的数据先训练一个歌唱者的声学模型,歌唱者维度训练音素上的重音、韵律和时间环境噪声条件的模型,以确保能对少批量数据的歌唱音色的推断,声学模型分别对歌唱音频和音素水平的声学条件的进行建模,作为梅尔谱图解码器的输入,以便于解码器根据这些声学信息对不同声学条件下的歌唱音色进行预测;上述所述的不同粒度表示为:歌声水平,说话人每句歌声中所呈现的细粒度的声学条件,音素水平,一句歌声中每个音素中较细粒度的声学条件,需要通过speakembedding模块去建立;获取音素的隐藏序列,音素的隐藏序列内隐藏了每个音素的持续时间、音高,根据每个音素的持续时间对音素序列进行扩充,音高元素也形成了一个与扩充音素序列相对应的序列,之后,整合输出的是和音素特征序列对齐的序列特征,预先将声学特征与音素序列进行对齐,然后将音素对应的声学特征进行取均值,方便转换成对应的声谱图;该模型基本建立在Transformer的结构上,在每个Transformer块中都有一个自注意网络和一个前馈网络,而在编码器中对自注意网络和前馈网络应用归一化后,可学习的scaleγ和biasβ能够有效影响隐藏激活和最终预测结果,小的条件网络根据相应的说话者特征确定层归一化中的尺度和偏置向量,对这个条件网络进行微调,条件网络由两个简单的线性层与组成,Es为speakerembedding模块,微调两个矩阵与在解码器和歌唱者嵌入的每个条件层归一化,根据如下计算公式: 计算每个尺度,得到scaleγ和biasβ,通过一个小的条件网络来决定归一化的scale和bias向量,并输入对应说话人的声学特征,只用到两个简单的线性层,输入是speakerembedding,输出预测γ和β,通过改变decoder中归一化操作的参数,间接调整模型,从而实现以小批量数据来定制个性化歌唱的目的,可学习的scaleγ和biasβ能够有效影响隐藏激活和最终预测结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都潜在人工智能科技有限公司;成都龙渊网络科技有限公司,其通讯地址为:610000 四川省成都市高新区益州大道中段722号1栋1单元12层1210号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。