首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于混合分辨率深度可分卷积网络的声纹确认方法 

申请/专利权人:华南理工大学

申请日:2022-08-26

公开(公告)日:2024-07-05

公开(公告)号:CN115457968B

主分类号:G10L19/02

分类号:G10L19/02;G10L25/27;G10L25/48

优先权:

专利状态码:有效-授权

法律状态:2024.07.05#授权;2022.12.27#实质审查的生效;2022.12.09#公开

摘要:本发明公开了一种基于混合分辨率深度可分卷积网络的声纹确认方法,步骤如下:首先,从语音样本提取梅尔倒谱系数;接着,将提取出的梅尔倒谱系数输入混合分辨率深度可分卷积网络进行特征变换得到说话人表征矢量;然后,将得到的说话人表征矢量与注册声纹库中的相应说话人表征均值矢量一起输入后端判决模块进行相似度评分,实现声纹确认。本发明采用多个不同尺寸的卷积核对输入特征进行分组卷积操作,获取多种分辨率的说话人区分性信息,提高声纹确认性能。与采用基于单一分辨率卷积网络的传统方法相比,本发明方法不但减少了参数量、降低了计算复杂度,而且声纹确认的等错误率低。

主权项:1.一种基于混合分辨率深度可分卷积网络的声纹确认方法,其特征在于,所述声纹确认方法包括下列步骤:S1、将语音数据集分为训练集、注册集和测试集;S2、从语音数据集的各语音样本中提取梅尔倒谱系数,以下梅尔倒谱系数简称MFCC特征;S3、设计混合分辨率深度可分卷积模块,以下混合分辨率深度可分卷积模块简称MrDSCB,基于混合分辨率深度可分卷积模块构建混合分辨率深度可分卷积网络,以下混合分辨率深度可分卷积网络简称MrDSCN;所述混合分辨率深度可分卷积网络包括卷积层、若干混合分辨率深度可分卷积模块、平均池化层、线性全连接层,其中,不同大小的深度可分卷积模块间使用线性残差连接,即前一个模块的输出再经过一层线性残差卷积层与后一个模块的输出相加;每个混合分辨率深度可分卷积模块由混合分辨率深度可分卷积层、ReLU层、池化层组成;线性全连接层作为网络输出层,用于输出说话人表征矢量;所述混合分辨率深度可分卷积模块在通道维度上对输入的特征进行非均匀分组,各组占比其中I是分成的组数;按照分组分离通道,得到I组包含不同通道数的子块特征;将I组输出子块特征沿着通道维度进行拼接,将拼接得到的特征进行逐点卷积实现通道间参数共享,得到含有设定输出通道数的卷积层输出特征;所述混合分辨率深度可分卷积模块中输入特征图大小是C×H×W,其中C是输入特征通道数,H和W是输入特征图的高和宽;输出特征图大小是C′×H′×W′,其中C′是输出特征图通道数,H′和W′是输出特征图的高和宽;每一个子块特征包含的通道数分别为: 选取I种不同尺寸的卷积核分别对I个子块特征进行逐通道卷积操作,1≤i≤I,设选取卷积核的尺寸分别为K1,K2,...,Ki,...,KI,其中Ki为对应第i个子块特征的卷积核的尺寸,且K1<K2<…<Ki<…<KI;在相邻两个卷积层之间使用一个ReLU激活函数层,ReLU函数定义为:Rv=max0,aTv+b其中a为权值,v为激活向量,b为偏置;S4、将训练集的MFCC特征输入MrDSCN进行网络训练;将注册集的MFCC特征输入已训练MrDSCN得到说话人表征矢量,建立注册声纹库;S5、构建后端判决模块,后端判决模块采用余弦距离进行相似度评分;S6、利用测试语音样本进行声纹确认。

全文数据:

权利要求:

百度查询: 华南理工大学 基于混合分辨率深度可分卷积网络的声纹确认方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。