恭喜声通科技股份有限公司;上海交通大学林祥获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜声通科技股份有限公司;上海交通大学申请的专利基于对抗学习的跨通道内容无关说话人识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114974260B 。
龙图腾网通过国家知识产权局官网在2025-05-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210261788.6,技术领域涉及:G10L17/04;该发明授权基于对抗学习的跨通道内容无关说话人识别方法及系统是由林祥;汤敬华;叶天鹏;张宗振设计研发完成,并于2022-03-17向国家知识产权局提交的专利申请。
本基于对抗学习的跨通道内容无关说话人识别方法及系统在说明书摘要公布了:一种基于对抗学习的跨通道内容无关说话人识别方法及系统,在离线阶段,通过采集多个不同信道下多个说话人的语音样本生成数据集,对信道分类模型进行训练;并采用训练后的信道迁移模型对于输入的不同信道下待测说话人语音样本进行信道归一化处理,采用训练后的单一信道说话人识别单元对用户所采集到的且包含需要找寻其中属于特定说话人音频的音频数据进行说话人识别,发现属于特定说话人的音频。本发明基于多个通信信道中采集获得的语音样本作为训练数据,训练说话人识别的信道迁移模型,并将不同信道下的语音信道特征进行迁移,从而实现将其他通信信道下的语音样本迁移至统一的语音信道,从而完成说话人识别任务,获得较高的识别准确度。
本发明授权基于对抗学习的跨通道内容无关说话人识别方法及系统在权利要求书中公布了:1.一种基于对抗学习的跨通道内容无关说话人识别方法,其特征在于,在离线阶段,通过采集多个不同信道下多个说话人的语音样本生成数据集后,分别①基于数据集中单一信道下的语音样本对特定目标信道的单一信道说话人识别单元进行训练②基于数据集中多个不同信道的语音样本对信道分类模型进行训练;然后基于数据集中所包含的信道的语音样本对信道迁移模型进行训练;在在线阶段,采用训练后的信道迁移模型对于输入的不同信道下待测说话人语音样本进行信道归一化处理,采用训练后的单一信道说话人识别单元对用户所采集到的且包含需要找寻其中属于特定说话人音频的音频数据进行说话人识别,发现属于特定说话人的音频;所述的单一信道说话人识别单元包括:两个分别由卷积层、激活层和池化层组成的提取单元以及全连接层;所述的信道迁移模型为自编码器结构,包括:两个卷积层和一个激活层组成的编码器、两个逆卷积层和两个激活层组成的解码器;所述的跨通道内容无关说话人识别方法具体包括:步骤一、采集需要识别的目标通道中说话人语音样本,得到不同信道的合集C={C1,C2,…,Cn},每个信道中的语音样本合集其中:k表示第k个信道类别;步骤二、使用梅尔频率倒谱系数MFCC方法提取单一信道Ck中的所有语音样本的时频特征图,即每一个语音样本Ar对应一个时频特征图Fr,相应得到对应语音样本合集的特征样本集F;步骤三、将收集获得的信道Ck对应的特征样本集记为利用对一个随机初始化的卷积神经网络进行有监督学习的训练,具体为:利用随机梯度下降传播方法对卷积神经网络随机初始化后的网络参数进行调优,直至其能够实现对单一信道Ck中语音样本归属说话人的高精度识别分类,即得到训练后的单一信道下的说话人识别模型步骤四、利用步骤二得到的不同信道集C对应的特征样本F,对另一个随机初始化的卷积神经网络进行有监督学习的训练,具体为:利用随机梯度下降传播方法对卷积神经网络随机初始化后的网络参数进行调优,直至其能够实现对语音样本归属通信信道的高精度识别分类,即得到训练后的语音样本的信道分类模型Modelchannel;步骤五、将随机通信信道的训练特征样本Finput输入随机初始化自编码器AutoEncoder模型,得到输出特征Foutput后,采用均方误差MSE来计算训练特征样本Finput与输出特征Foutput的差别,从而作为还原损失Loss1用于对随机初始化自编码器模型进行参数调整;步骤六、将步骤五中所获得的输出特征Foutput输入步骤三得到的训练后的说话人识别模型得到基于该模型的说话人分类的概率分布Pspeaker后,基于训练样本给出的说话人类别标签,使用交叉熵函数计算获得说话人识别损失Loss2用于对步骤五得到的随机初始化自编码器模型进行参数调整,使得经过自编码器后获得的特征中尽可能保留说话人身份信息的特征信息;步骤七、将步骤五中所获得的输出特征Foutput输入步骤四得到的训练后的分类模型Modelchannel,得到基于该模型的输入语音的信道分类概率分布Pchannel后,对任意信道的输入语音样本,均使用Ck信道作为该样本的目标标签,进而使用交叉熵函数计算获得信道判别损失Loss3用于随机初始化自编码器模型进行参数调整,使得经过自编码器的特征能够对抗信道判别模型,从而实现将输入非Ck信道的语音样本中包含其他的信道特征信息归一化为Ck信道信息;步骤八、将还原损失Loss1、说话人识别损失Loss2和信道判别损失Loss3加权融合得到用于训练自编码器模型ModelAE的总损失函数Loss=α*Loss1+β*Loss2+γ*Loss3,其中:超参数α、β、γ根据训练样本集进行确定;步骤九,基于随机梯度下降方法,将步骤八得到的总损失函数回传至自编码器模型中的参数,从而训练获得最优化的信道迁移模型ModelAE,用于在线阶段的识别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人声通科技股份有限公司;上海交通大学,其通讯地址为:201108 上海市闵行区春东路508号2幢418单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。