一种基于上下文感知扩散模型的口吃语音编辑方法和系统

导航：龙图腾网> 最新专利技术> 一种基于上下文感知扩散模型的口吃语音编辑方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州东上智能科技有限公司

摘要：本发明公开了一种基于上下文感知扩散模型的口吃语音编辑方法和系统，属于语音编辑领域。首先获取口语语音‑文本组合，从文本中提取文本特征向量以及随机遮罩后的口语语音特征向量；基于上下文感知机制提取上下文信息；将上下文信息、当前时间步、当前时间步的梅尔频谱特征输入扩散模型，迭代计算上一时间步的梅尔频谱特征，直至迭代地重建出遮罩部分对应语音的梅尔频谱特征；对上下文感知机制和扩散模型进行联合训练；针对带有口吃的口语语音，遮罩口吃区域，采用训练好的上下文感知机制和扩散模型生成编辑后的语音片段。本发明通过从口语语音中提取丰富的上下文信息来指导扩散模型的迭代过程，从而提高了口吃语音编辑的音质与自然度。

主权项：1.一种基于上下文感知扩散模型的口吃语音编辑方法，其特征在于，包括：步骤1，获取口语语音-文本组合，从文本中提取文本特征向量；对口语语音进行随机遮罩，提取遮罩后的口语语音特征向量；步骤2，基于上下文感知机制，从步骤1的文本特征向量和遮罩后的口语语音特征向量中提取上下文信息；步骤3，将上下文信息、当前时间步、扩散过程中当前时间步的梅尔频谱特征输入扩散模型，迭代计算上一时间步的梅尔频谱特征，直至迭代地重建出遮罩部分对应语音的梅尔频谱特征；步骤4，利用口语语音-文本组合的一一对应关系，计算扩散模型的损失函数项以及上下文感知机制的损失函数项，对上下文感知机制和扩散模型进行联合训练；步骤5，针对带有口吃的口语语音，遮罩口吃区域，采用步骤1的方法提取目标文本的文本特征向量和遮罩后的口语语音特征向量，采用步骤2-3的方法，利用训练后的上下文感知机制和扩散模型生成编辑后的语音片段。

全文数据：

权利要求：

百度查询：杭州东上智能科技有限公司一种基于上下文感知扩散模型的口吃语音编辑方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：FinFET堆叠栅存储器的形成方法

下一篇：一种全自动自助定制溯源内容的显示包装盒个性定制系统及其方法

相关技术

FinFET堆叠栅存储器的形成方法

一种全自动自助定制溯源内容的显示包装盒个性定制系统及其方法

一种伸缩式气流隔离机构

视频数据的帧间预测方法、装置及电子设备

一种脉冲调制装置

动态鳍片对齐系统

一种盾构隧道内攀壁巡检机器人及其巡检方法

一种海边电厂循环水泵双变频节能控制系统及方法

一种可自适应角度调节装置

一种弹簧装配装置

一种折叠臂、Π型架及单人可快速折叠的大型帐篷支架

数据的安全识别方法及存储介质

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于上下文感知扩散模型的口吃语音编辑方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务