一种基于时域残差层的说话人识别方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中科南京智能技术研究院

摘要：本发明公开了一种基于时域残差层的说话人识别方法及系统，包括：准备训练数据集，训练数据集中的每项数据包含语音频谱和相应的说话人标签；构建说话人识别网络，包括说话人嵌入层模型与说话人分类层，说话人嵌入层模型依次包括卷积层，残差层、3个时域残差层、逐通道卷积、池化层和全连接层；采用训练数据集训练说话人识别网络，移除完成训练的说话人分类层，获得完成训练的说话人嵌入层模型；采用训练好的说话人嵌入层模型对实时音频数据进行说话人识别，判断实时音频数据对应说话人与注册说话人是同一说话人。本发明在说话人嵌入层模型中应用时域残差层，提高了说话人识别的识别率。

主权项：1.一种基于时域残差层的说话人识别方法，其特征在于，包括以下步骤：准备训练数据集，训练数据集中的每项数据包含语音频谱和相应的说话人标签；构建说话人识别网络，包括说话人嵌入层模型与说话人分类层，语音频谱输入说话人嵌入层模型后获得说话人嵌入层向量，说话人嵌入层向量输入说话人分类层输出说话人分类结果；其中，说话人嵌入层模型依次包括卷积层，残差层、3个时域残差层、逐通道卷积、池化层和全连接层，残差层的第一个模块应用降采样残差模块，后续堆叠若干残差模块；时域残差层的第一个模块应用时域残差模块，后续堆叠若干残差模块；逐通道卷积进一步压缩频域信息，时域尺寸不变；采用训练数据集训练说话人识别网络，移除完成训练的说话人分类层，获得完成训练的说话人嵌入层模型；采用训练好的说话人嵌入层模型对实时音频数据进行说话人识别，判断实时音频数据对应说话人与注册说话人是同一说话人。

全文数据：

权利要求：

百度查询：中科南京智能技术研究院一种基于时域残差层的说话人识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电池端板

下一篇：一种新能源汽车语音功能测试方法、系统及设备

相关技术

一种电池端板

一种新能源汽车语音功能测试方法、系统及设备

一种盾构壁后注浆浆液及其制备方法

一种1,2,3-三氮唑-4-甲酸乙酯的合成方法

一种铝基制冷散热片及其制备方法

一种采空区储、净矿井水的方法

天然气发动机配气相位控制方法和天然气发动机

声纳图像的可视化处理方法、系统和计算装置

一种惯性传感器探头装置及多自由度检测方法

一种用于塑胶原料生产加工的除味装置

一种人脸识别环卫作业电子工牌

一种基于Wollaston棱镜的同步移相干涉装置及方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于时域残差层的说话人识别方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务