基于离散Diffusion的语音合成方法及系统

导航：龙图腾网> 最新专利技术> 基于离散Diffusion的语音合成方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：厦门蝉羽网络科技有限公司

摘要：本发明公开了一种基于离散Diffusion的语音合成方法及系统，方法包括：将待合成文本转换为音素编码C；将声学提示和待合成音频通过音频编解码器分别转换为声学离散编码P和原始音频离散编码X；在Diffusion的前向过程中，对音频离散编码X进行掩码操作，得到完全掩码的离散序列XT；在推理阶段，从完全掩码的离散序列XT出发，基于预先定义的序列S干预从概率分布采样得到的，并通过T步的迭代恢复，得到预测音频离散编码X0；将预测音频离散编码X0通过音频编解码器转成相应的音频信息。本发明可以有效缓解合成语音中的吞字漏字问题，提高模型的鲁棒性。

主权项：1.一种基于离散Diffusion的语音合成方法，其特征在于，包括：S101，将待合成文本转换为音素编码C；S102，将声学提示和待合成音频通过音频编解码器分别转换为声学离散编码P和原始音频离散编码X；S103，在Diffusion的前向过程中，对原始音频离散编码X进行掩码操作，得到完全掩码的离散序列XT；S104，在推理阶段，从完全掩码的离散序列XT出发，基于预先定义的序列S干预从概率分布采样得到的，并通过T步的迭代恢复，得到预测音频离散编码X0；其中，T表示时间步的总数，表示步长，序列S为偶数长度的序列，序列S中的元素决定了在第步所恢复的音频离散编码的位置，且序列S中的元素满足相对于已经选择的其他位置距离最远；分别表示第步和第步的音频离散编码；从Diffusion网络输出的概率分布中采样得到，为Diffusion网络的参数；其中，具体包括：根据序列S得到掩码矩阵，其中： A为根据待合成音频的序列长度生成的递增序列，且待合成音频的序列长度等于原始音频离散编码的维度，为递增序列A的第j个元素，为掩码矩阵的元素，r表示序列S中的推理位置，%表示取余操作，N为序列S的长度；掩码矩阵中每行关于推理位置r相关的元素为1，其他元素为0；在得到后，根据、和来决定第步的推理位置，即: ；通过T步的迭代恢复，得到预测音频离散编码X0；S105，将预测音频离散编码X0通过音频编解码器转成相应的音频信息。

全文数据：

权利要求：

百度查询：厦门蝉羽网络科技有限公司基于离散Diffusion的语音合成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：服装热调节系统

下一篇：一种伸缩式气流隔离机构

相关技术

服装热调节系统

一种伸缩式气流隔离机构

一种启动块的调节装置及系统

一种用于磨煤机的具有风粉均化功能的转子以及分离器

一种低糖保健大米制作装置及方法

一种盾构隧道内攀壁巡检机器人及其巡检方法

一种饲料加工用烘干装置

一种污水检测过滤装置

动效模板生成方法、图片动态展示方法、装置及电子设备

一种折叠臂、Π型架及单人可快速折叠的大型帐篷支架

一种复合管连接器

动态鳍片对齐系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于离散Diffusion的语音合成方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务