恭喜厦门快商通科技股份有限公司徐敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜厦门快商通科技股份有限公司申请的专利一种声纹识别的方法、装置以及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114446310B 。
龙图腾网通过国家知识产权局官网在2025-05-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210079352.5,技术领域涉及:G10L17/04;该发明授权一种声纹识别的方法、装置以及存储介质是由徐敏;肖龙源;李稀敏;叶志坚设计研发完成,并于2022-01-24向国家知识产权局提交的专利申请。
本一种声纹识别的方法、装置以及存储介质在说明书摘要公布了:本发明涉及人工智能技术领域。本发明具体公开了一种声纹识别的方法,使用了通过如下步骤训练的声纹识别模型来进行声纹识别:获取训练集,训练集包含多条音频数据;提取训练集中包含的音频数据的音频特征;对音频特征进行切片操作,得到多个相同长度的音频切片特征;每次随机获取固定数量的音频切片特征,输入到声纹识别模型进行训练,迭代多次训练,得到训练好的声纹识别模型;其中,声纹识别模型基于神经网络实现,包含融合了至少两个压缩激励子模块的处理模块。本发明提供的一种声纹识别的方法和装置,能够对声纹识别的通道维度和频率维度进行激励,并将激励结果进行相加,同时提升通道维度和频率维度的解析度,提升了声纹识别的效果。
本发明授权一种声纹识别的方法、装置以及存储介质在权利要求书中公布了:1.一种声纹识别的方法,其特征在于,使用了通过如下步骤训练的声纹识别模型来进行声纹识别:S1,获取训练集,所述训练集包含多条音频数据;S2,使用所述训练集对所述声纹识别模型进行训练,所述声纹识别模型基于神经网络实现,包含融合了至少两个压缩激励子模块的处理模块;所述步骤S2包括:S21,提取所述训练集中包含的音频数据的音频特征;S22,对所述音频特征进行切片操作,得到多个相同长度的音频切片特征;S23,每次随机获取固定数量的所述音频切片特征,输入到所述声纹识别模型进行训练,迭代多次训练,得到训练好的声纹识别模型;其中,所述神经网络为残差网络,所述处理模块为融合了通道压缩-激励SE子模块和频率压缩-激励fwSE子模块的SEfwSE模块;所述SE子模块用于压缩所述音频切片特征的时间维度和频率维度,激励所述音频切片特征的通道维度;所述fwSE子模块用于压缩所述音频切片特征的时间维度和通道维度,激励所述音频切片特征的频率维度;其中,所述通道压缩-激励SE子模块的压缩函数Fsq和激励函数Fex的公式分别为: Fexz,W=σgz,W=σW2δW1z;其中,xc为所述音频切片特征,T为所述音频切片特征的帧数,F为所述音频切片特征的维度,i为正整数,j为正整数,z为二维张量,W表示线性变换矩阵,δ表示ReLU激活函数,σ表示sigmoid函数,g表示中间函数,W1表示对通道数进行压缩以减小计算量的第一线性层,W2表示将压缩后的通道数还原到压缩前大小的第二线性层;其中,所述频率压缩-激励fwSE子模块的压缩函数Fsq和激励函数Fex的公式分别为: Fexz,W=σgz,W=σW2δW1z;其中,xF为所述音频切片特征,T为所述音频切片特征的帧数,C为所述频率压缩-激励fwSE子模块的通道数,i为正整数,j为正整数,z为二维张量,W表示线性变换矩阵,δ表示ReLU激活函数,σ表示sigmoid函数,g表示中间函数,W1表示对频率维度进行压缩以减小计算量的第三线性层,W2表示将压缩后的频率维度还原到压缩前大小的第四线性层。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门快商通科技股份有限公司,其通讯地址为:351200 福建省厦门市软件园三期诚毅北大街63号1301单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。