首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于神经网络模型实现小语种音频合成的系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:厦门市一码当先信息科技有限公司

摘要:本发明公开了一种基于神经网络模型实现小语种音频合成的系统,涉及音频合成领域,本系统采用数据采集模块、处理模块、合成模块、集成模块和训练模块实现。本发明具备了基于神经网络的合成方法能够自动学习音频特征和减少对手工调参的依赖,并提高合成音频的自然度和连贯性,且优良的数据采集系统可缓解小语种数据稀缺的问题,引入更先进的声学特征预测模型,提高了声学特征预测的准确性和可靠性,从而能够很好地适应不同小语种的特性差异,整体的音频合成的系统从文本输入到音频波形输出,整个过程衔接优良从而提高了系统的整体效率和性能,本小语种音频合成的系统生成的音频在音质和清晰度达到了较佳的水平。

主权项:1.一种基于神经网络模型实现小语种音频合成的系统,其特征在于,包括:数据采集模块:用于收集小语种的文本数据,将文本数据输入至处理模块内;处理模块:用于对文本数据进行清洗,并进行音素标注和基于梅尔频谱提取特征,输出处理后的文本数据;合成模块:用于处理后的文本数据输入,输出在位置t和维度p上编码后的文本表示、在位置t和特征维度f上预测的Mel频谱图特征和第n个音频帧上的音频特征表示;集成模块:用于将在位置t和维度p上编码后的文本表示、在位置t和特征维度f上预测的Mel频谱图特征和第n个音频帧上的音频特征表示集成到模型中;训练模块:用于从数据采集模块中加载文本数据,对集成模块合成的模型循环训练,在训练过程中定期评估模型的性能;所述合成模块包括编码子模块、特征子模块、生成子模块和循环优化子模块;所述编码子模块的计算公式如下: ; ;其中:ECUt,p指代在位置t和维度p上编码后的文本表示、CCDt指代条件参数;ECUAt,p指代处理后的文本数据在位置t和维度p上的嵌入表示、ECUt-1,p指代在位置t-1和维度p上编码后的文本表示;t指代位置、p指代维度、P指代编码的维度总数;ReLU指代激活函数一、LSTM指代长短期记忆网络、⊙指代逐元素乘法、Wcond,p指代在维度p上生成条件参数的权重矩阵、bscond指代CCDt的偏置项;A1,p和a1,p分别指代维度p编码层的权重一和权重二;所述编码子模块的处理过程则如下:初始化神经网络模型构建中编码器网络的参数,将处理后的文本数据序列中每个元素转化为处理后的文本数据在位置t和维度p上的嵌入表示ECUAt,p,将ECUAt,p作为输入通过编码器网络传播,并基于激活函数一ReLU、长短期记忆网络LSTM输出位置t和维度p上编码后的文本表示ECUt,p,并基于输出位置t和维度p上编码后的文本表示ECUt,p生成条件参数CCDt。

全文数据:

权利要求:

百度查询: 厦门市一码当先信息科技有限公司 一种基于神经网络模型实现小语种音频合成的系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。