买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳市北科瑞声科技股份有限公司
摘要:本申请涉及人工智能技术领域,揭露了一种语音合成模型的训练方法,所述方法包括:获取训练文本,利用预设语音合成模型对所述训练文件进行音素转换,得到音素序列,所述语音合成模型包括编码器、解码器、残差网络和WaveGlow声码器;利用所述编码器、所述解码器和所述残差网络依次对所述音素序列进行处理,得到目标梅尔频谱;利用所述WaveGlow声码器对所述目标梅尔频谱进行并行音频转换,得到目标音频;对所述目标音频进行损失计算,得到训练损失值,并根据损失值调整语音合成模型的参数,得到目标语音合成模型。此外,本申请还涉及一种语音合成方法、装置、设备及存储介质。本申请可以提高语音合成模型的准确率,加快语音合成模型合成语音的训练速度。
主权项:1.一种语音合成模型的训练方法,其特征在于,所述方法包括:获取训练文本,利用预设语音合成模型对所述训练文本进行音素转换,得到音素序列,所述语音合成模型包括编码器、解码器、残差网络和WaveGlow声码器;利用所述编码器、所述解码器和所述残差网络依次对所述音素序列进行处理,得到目标梅尔频谱;利用所述WaveGlow声码器对所述目标梅尔频谱进行并行音频转换,得到目标音频;对所述目标音频进行损失计算,得到训练损失值,并根据损失值调整语音合成模型的参数,得到目标语音合成模型;所述利用所述编码器、所述解码器和所述残差网络依次对所述音素序列进行处理,得到目标梅尔频谱,包括:利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵;根据所述隐藏特征矩阵,利用所述解码器对所述训练文本的梅尔频谱进行预测,得到预测梅尔频谱;利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱;所述解码器包括注意力网络和后处理网络,所述根据所述隐藏特征矩阵,利用所述解码器对所述训练文本的梅尔频谱进行预测,得到预测梅尔频谱,包括:利用所述注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量;将所述第一当前时间步的上下文向量与预设的梅尔频谱进行串联操作,并将串联结果输入至预设的双层长短时记忆层中,得到第二当前时间步的上下文向量;利用所述后处理网络对所述第二当前时间步的上下文向量进行第一线性投影,得到当前时间步的上下文标量;利用所述后处理网络对所述第二当前时间步的上下文向量进行第二线性投影并对第二线性投影后的上下文向量进行梅尔频谱预测,得到第二当前时间步的梅尔频谱;根据所述当前时间步的上下文标量,利用预设的第一激活函数计算梅尔频谱预测完成的概率;判断所述梅尔频谱预测完成的概率是否小于预设的阈值;当所述梅尔频谱预测完成的概率小于所述阈值时,将所述第二当前时间步的上下文向量与所述第二当前时间步的梅尔频谱进行串联操作,并返回所述输入至预设的双层长短时记忆层中的步骤,直至所述梅尔频谱预测完成的概率小于所述阈值时,结束梅尔频谱预测,得到预测梅尔频谱;所述注意力网络包含注意力权重值、线性层、第二激活函数、映射函数,所述利用预设的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量,包括:利用所述线性层对所述隐藏特征矩阵进行线性投影,得到键矩阵;将所述注意力权重值输入至预设的卷积层中,生成位置特征矩阵;利用所述线性层对所述位置特征矩阵进行线性投影,得到附加特征矩阵;将所述附加特征矩阵与所述键矩阵进行相加,并利用所述第二激活函数处理相加结果,得到注意力概率向量;利用所述映射函数对所述注意力概率向量进行映射,得到当前注意力的权重向量;将所述当前注意力权重向量与所述隐藏特征矩阵进行相乘操作,得到第一当前时间步的上下文向量。
全文数据:
权利要求:
百度查询: 深圳市北科瑞声科技股份有限公司 语音合成模型的训练方法、语音合成方法、装置及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。