首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于参数动态调整的生成对抗网络语音转换方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东技术师范大学

摘要:本发明公开一种基于参数动态调整的生成对抗网络语音转换方法,在特征提取阶段,提取语音的基频、频谱包络及非周期性特征。训练时,对特征张量进行批量归一化和自注意力处理,再经卷积、Sigmoid激活及Dropout正则化得到gamma调整参数。随后,通过自适应池化和卷积生成动态gamma值,强化频谱特征间的相关性,提升语音质量。在转换阶段,使用训练模型结合声码器合成目标语音。本方案利用频谱包络与动态gamma值,增强特征间长距离依赖,提高语音转换性能。

主权项:1.一种基于参数动态调整的生成对抗网络语音转换方法,其特征在于,包括如下步骤:步骤S01:在特征提取阶段,对语音样本按帧提取说话人语音的基频F0、频谱包络SP和非周期性分量AP,提取出m维编码后的频谱包络Coded_SP;得到基频的均值、标准差和正则化后的编码的频谱包络列表;从说话人A和说话人B语音样本中各截取长度为n的语音帧特征参数,生成随机数据对Dataset作为输入特征X,然后经过2d卷积层将X映射为维度,其中,c为输出特征通道数,网络从原始单通道输入中提取多种不同的特征映射,多通道特征表示有助于模型捕捉复杂和细致的音频特性,为风格转换提供更丰富的信息基础;步骤S02:利用批量归一化BatchNorm2d方法对每个输入特征张量X进行独立的归一化得到规范化特征张量Y;步骤S03:将特征张量Y利用查询、键、值三个卷积层点积得到自注意力机制层的输出特征张量Z;步骤S04:把规范化特征张量Y输入自适应平均池化层AdaptiveAvgPool2d,将每个特征通道的空间维度,即宽度和高度,缩减到1x1,得到池化后的特征张量L;步骤S05:通过一个卷积层对池化后张量L特征图进行卷积操作得到特征张量M,将M映射到与输入特征图相同的维度空间;步骤S06:通过Sigmoid激活函数将卷积操作得到的特征张量M进行非线性变换得到gamma的张量表示N,以确保生成的gamma值在0,1的范围内;步骤S07:使用正则化技术Dropout对注意力输出Z进行调整,以增加模型的鲁棒性;步骤S08:将动态调整的gamma值N对自注意力层输出Z进行加权得到最终输出P,使模型学习更复杂的语音表得到最终输出P,之后把数据P输入到生成对抗网络的下采样模块进行模型训练;步骤S09:加载统计信息,将说话人A的基频转换为说话人B的基频信息,利用训练过程得到模型文件进行语音转换,最后利用WORLD声码器将F0、Coded_SP和AP语音特征合成音频,生成转换后的目标说话人语音。

全文数据:

权利要求:

百度查询: 广东技术师范大学 一种基于参数动态调整的生成对抗网络语音转换方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。