一种噪声环境下说话人识别模型构建方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：成都理工大学

摘要：本发明公开了一种噪声环境下说话人识别模型构建方法，在说话人识别网络前端增加一个去噪模块，使用改进的谱减法对带噪语音进行去噪。针对谱减法的两个参数过减因子α和谱下限参数β，使用梯度下降的方法由神经网络动态调整两个参数的值，保留更符合说话人识别任务的语音信息，从而提高了噪声环境下说话人识别的准确率。带噪语音信号选择变窗长的窗函数进行短时傅里叶变换，可以防止频谱泄露说话人识别任务需要的说话人信息。

主权项：1.一种噪声环境下说话人识别模型构建方法，其特征在于，所述说话人识别模型包括去噪模块、语音特征提取模块和神经网络；所述去噪模块为：1.1将输入语音分帧进行短时傅里叶变换，抽取语音在窗函数长度T下的线性频谱Pyω；1.2噪声估计，得到噪声的线性频谱Peω；1.3将语音的线性频谱Pyω和噪声的线性频谱Peω分别转换为语音的能量谱PYω和噪声的能量谱PEω，再进行谱减，得到干净语音的能量谱PXω，即：PYω＝|Pyω|2，PEω＝|Peω|2，其中，α为过减因子，β为谱下限参数，γ为谱系数，γ＝1；1.4平滑处理干净语音的能量谱PXω；1.5使用傅里叶反变换恢复干净语音；训练所述说话人识别模型：将语音训练集输入去噪模块得到干净语音，使用语音特征提取模块提取语音特征后，放入神经网络进行训练，得到说话人特征向量；所述语音特征提取模块提取的语音特征为梅尔谱图；所述神经网络为ECAPA-TDNN；训练过程中，去噪模块的过减因子α和谱下限参数β通过梯度下降的方法更新梯度，反向传播与神经网络的其它参数一起更新；使用已训练的说话人识别模型得到说话人的特征向量，将说话人特征向量与数据库中已有的特征向量进行余弦相似度计算余弦距离，根据余弦距离与阈值的大小来判定出说话人。

全文数据：

权利要求：

百度查询：成都理工大学一种噪声环境下说话人识别模型构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种平开窗

下一篇：一种基于数字密钥的电子公文管理系统及方法

相关技术

一种平开窗

一种基于数字密钥的电子公文管理系统及方法

用于传递和存储用于ESIM设备变更的激活码的方法和装置

公路软土路基超载预压时超载比的确定方法、装置及介质

一种基于电子元器件控制的防卡死智能锁体

一种室内立式蔬菜栽培架

一种煤矿井下风水管路在线监测系统

设备健康预测方法和计算机可读存储介质

一种变压器电磁温度流体多物理场间接耦合计算方法及系统

基于高强柔性索环连接的混凝土圆形筒状结构与预制筒片

碳化硅半导体装置及其制造方法

植物的耐热性或耐干燥性提高剂、耐盐性提高剂、活性提高剂

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种噪声环境下说话人识别模型构建方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务