首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种多通道双说话人分离方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院声学研究所

摘要:本申请涉及一种多通道双说话人分离方法及系统,其中所述方法包括:对混合语音音频进行处理,得到每帧音频的频谱;根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽;基于所述目标说话人、所述第一估计的说话人掩蔽和所述混合语音音频,得到所述至少两个说话人的分离语音。

主权项:1.一种多通道双说话人分离方法,其特征在于,所述方法包括:对混合语音音频进行分帧、加窗和傅里叶变换处理,得到每帧音频的频谱;所述混合语音音频包括不同说话人重叠比例的混合语音音频;根据所述每帧音频的频谱和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计,所述目标说话人的笛卡尔坐标估计指示加权的所述目标说话人的声源位置估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到第一目标说话人掩蔽和第一干扰说话人掩蔽;基于所述第一目标说话人掩蔽和第一干扰说话人掩蔽和所述混合语音音频,得到目标说话人语音和干扰说话人语音;所述方法还包括:确定混合语音音频的训练集,基于所述混合语音音频的训练集确定训练语音音频及标签;所述标签包括声源位置向量、第二目标说话人语音和第二干扰说话人语音;根据所述训练语音音频训练所述声源位置估计网络,包括:对所述训练语音音频进行分帧、加窗和傅里叶变换处理,得到所述训练语音音频的频谱;所述训练语音音频的频谱包括实部和虚部;以所述实部和虚部拼接后的数据为所述声源位置估计网络的输入,以声源位置向量估计为输出,计算第一损失函数的值,所述第一损失函数为声源位置的均方误差;以所述第一损失函数的值在第一阈值以内为目标进行训练,得到训练好的所述声源位置估计网络和对应的权重向量;所述声源位置估计网络包括3层卷积模块、2层双向长短时记忆网络和2层全连接层;训练所述说话人掩蔽估计网络,包括:根据所述训练语音音频和所述声源位置向量确定第二角度特征、第二对数能量谱和第二正余弦通道间相位差;以所述第二角度特征、第二对数能量谱和第二正余弦通道间相位差为输入,以第二目标说话人掩蔽和第二干扰说话人掩蔽为输出,计算所述第二目标说话人掩蔽与所述训练语音音频相乘的积,得到估计说话人语音信号;计算所述第二干扰说话人掩蔽与训练语音音频相乘的积,得到估计干扰说话人语音信号;计算第二损失函数的值,所述第二损失函数的值为估计语音信号与目标语音信号损失比值的对数值;所述估计语音信号包括估计说话人语音信号和估计干扰说话人语音信号;所述目标语音信号包括第二目标说话人语音和第二干扰说话人语音;以第二损失函数的值在第二阈值以内为目标进行训练,得到训练好的所述说话人掩蔽估计网络,所述说话人掩蔽估计网络包括3层双向长短时记忆网络和2个单独的全连接层;联合训练所述声源位置估计网络和所述说话人掩蔽估计网络,获得训练好的声源位置估计网络和说话人掩蔽估计网络,包括:组合所述声源位置估计网络和所述说话人掩蔽估计网络,计算第三损失函数的值,所述第三损失函数的值为第一损失函数的值和第二损失函数的值之和;所述第一损失函数的值为声源位置的均方误差值;所述第二损失函数的值为估计语音信号与目标语音信号损失比值的对数值;以所述第三损失函数的值最小为目标对声源位置估计网络和说话人掩蔽估计网络进行微调,得到训练好的声源位置估计网络和说话人掩蔽估计网络。

全文数据:

权利要求:

百度查询: 中国科学院声学研究所 一种多通道双说话人分离方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术