首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于离散Diffusion的语音合成方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:厦门蝉羽网络科技有限公司

摘要:本发明公开了一种基于离散Diffusion的语音合成方法及系统,方法包括:将待合成文本转换为音素编码C;将声学提示和待合成音频通过音频编解码器分别转换为声学离散编码P和原始音频离散编码X;在Diffusion的前向过程中,对音频离散编码X进行掩码操作,得到完全掩码的离散序列XT;在推理阶段,从完全掩码的离散序列XT出发,基于预先定义的序列S干预从概率分布采样得到的,并通过T步的迭代恢复,得到预测音频离散编码X0;将预测音频离散编码X0通过音频编解码器转成相应的音频信息。本发明可以有效缓解合成语音中的吞字漏字问题,提高模型的鲁棒性。

主权项:1.一种基于离散Diffusion的语音合成方法,其特征在于,包括:S101,将待合成文本转换为音素编码C;S102,将声学提示和待合成音频通过音频编解码器分别转换为声学离散编码P和原始音频离散编码X;S103,在Diffusion的前向过程中,对原始音频离散编码X进行掩码操作,得到完全掩码的离散序列XT;S104,在推理阶段,从完全掩码的离散序列XT出发,基于预先定义的序列S干预从概率分布采样得到的,并通过T步的迭代恢复,得到预测音频离散编码X0;其中,T表示时间步的总数,表示步长,序列S为偶数长度的序列,序列S中的元素决定了在第步所恢复的音频离散编码的位置,且序列S中的元素满足相对于已经选择的其他位置距离最远;分别表示第步和第步的音频离散编码;从Diffusion网络输出的概率分布中采样得到,为Diffusion网络的参数;其中,具体包括:根据序列S得到掩码矩阵,其中: A为根据待合成音频的序列长度生成的递增序列,且待合成音频的序列长度等于原始音频离散编码的维度,为递增序列A的第j个元素,为掩码矩阵的元素,r表示序列S中的推理位置,%表示取余操作,N为序列S的长度;掩码矩阵中每行关于推理位置r相关的元素为1,其他元素为0;在得到后,根据、和来决定第步的推理位置,即: ;通过T步的迭代恢复,得到预测音频离散编码X0;S105,将预测音频离散编码X0通过音频编解码器转成相应的音频信息。

全文数据:

权利要求:

百度查询: 厦门蝉羽网络科技有限公司 基于离散Diffusion的语音合成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。