一种基于跨模态损失的目标语音分离方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山东大学

摘要：本发明提供了一种基于跨模态损失的目标语音分离方法及系统，本发明利用预训练后的目标语音分离模型，基于目标说话人唇部序列和混合音频信号，得到分离后的目标语音信号，通过在模型中引入目标说话人的视觉信息以提取视觉嵌入，采用自提取音频嵌入的方式代替预注册语音，引入跨模态损失约束说话人视觉和听觉特征的提取，能够避免目标混淆问题，构建两分支架构，获取干扰说话人语音信号转化为辅助信息，优化第一分支的语音提取，避免使用难以获取的辅助信息，提高目标语音分离实际应用场景的适应度。

主权项：1.一种基于跨模态损失的目标语音分离方法，其特征是，包括以下步骤：获取目标说话人视频，提取目标说话人唇部序列；获取混合音频信号；利用预训练后的目标语音分离模型，基于目标说话人唇部序列和混合音频信号，得到分离后的目标语音信号，且目标语音分离模型的训练过程考虑跨模态损失；所述目标语音分离模型在训练过程为两分支架构，其中：第一分支用于实现视听多模态目标语音提取，基于目标说话人唇部序列和混合音频信号，得到分离后的目标语音信号；所述第一分支包括音频编码器、视觉编码器、说话人提取器和音频解码器，其中：音频编码器从混合音频信号中提取音频嵌入，视觉编码器将目标说话人唇部序列编码为视觉嵌入；说话人提取器接收提取的音频嵌入和视觉嵌入输入，所述说话人提取器包括多层迭代的提取器块，每一个提取器块包括说话人编码器和掩膜估计器，所述说话人编码器在时间维度上拼接两个模态的嵌入，得到含有区分性身份信息的目标说话人嵌入，所述掩膜估计器根据视觉嵌入、目标说话人嵌入和上一层掩膜估计器的输出，得到目标说话人掩膜；所述音频解码器，基于目标说话人掩膜，得到目标语音信号；第二分支用于实现单模态干扰语音提取，基于第一分支的预估目标语音信号和混合音频信号，得到分离后的干扰语音信号，以获取的干扰语音信号作为辅助信息，通过跨模态损失影响第一分支目标语音的提取；所述第二分支包含依次连接的音频编码器、说话人提取器和音频解码器；所述第二分支仅存在于训练过程中；第二分支的音频编码器接收混合音频信号与第一分支中预估的目标语音信号的差值，说话人编码器仅接收音频嵌入，输出干扰说话人嵌入；第一分支和第二分支均具有音频编码器、音频解码器和说话人提取器；其中，音频编码器通过一维卷积实现将时域音频信号转换为音频特征序列,转换过程可以表示为：其中，N是音频嵌入维度，T是音频采样总数，，L为一维卷积的卷积核大小；音频解码器执行重叠相加操作将音频特征序列重建为音频信号，解码过程为：在目标语音分离模型的训练过程中，构建包含三个目标函数的多任务学习框架，第一分支的尺度不变信噪比损失用于衡量提取的目标语音和干净语音之间的质量，第二分支的尺度不变信噪比损失用于衡量提取的干扰语音和干净目标语音之间的质量，跨模态损失用于拉近目标视觉特征和预估目标语音信号音频特征，拉远目标视觉特征和预估干扰语音信号音频特征；损失定义如下所示；跨模态损失同时影响两分支的训练过程，在目标说话人视觉特征、目标语音特征和干扰语音特征之间进行度量学习，拉近正样本距离，拉远负样本距离，约束视觉和听觉特征的提取；其中，是比例因子，表示视觉特征和预估目标语音信号音频特征之间的余弦距离，表示视觉特征和预估干扰语音信号音频特征之间的余弦距离，，为两个距离之间的余量，设置为0.5；在目标语音分离算法中引入跨模态损失，在目标说话人视觉特征、目标语音特征和干扰语音特征之间进行度量学习，利用视听一致性约束视觉和听觉特征的提取，将干扰说话人信息转化为辅助信息，优化第一分支的语音提取。

全文数据：

权利要求：

百度查询：山东大学一种基于跨模态损失的目标语音分离方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种农艺地表喷灌装置

下一篇：一种具有汽相分布器的精馏塔

相关技术

一种农艺地表喷灌装置

一种具有汽相分布器的精馏塔

一种制面段信息采集装置

一种多级复合式整流器及流体管道输送系统

一种轻卡悬置防松脱装置

一种呕吐物收集装置

一种道路维修切割装置

一种防止鸡蛋污染的清洗装置

一种可调节高度的阴囊托起垫

一种磁吸式纹身机头托手

一种桥台背路基沉降修复结构

一种扒钉制作工装

目标相关技术

目标区域的疫情推演方法和目标区域疫情推演模拟器_第四范式(北京)技术有限公司_202110287419.X

一种多目标跟踪方法_北京信息科技大学_202410725633.2

渠道动态目标水位控制方法、装置_武汉大学_202410947581.3

一种目标标注方法、装置及系统_杭州微影软件有限公司_202410791280.6

一种目标追踪方法、装置、设备及介质_浙江大华技术股份有限公司_202111141007.1

确定目标显示信息的方法以及装置_广东电网有限责任公司_202110857079.X

自动泊车方法、电子设备及目标车辆_武汉星纪魅族科技有限公司_202410824242.6

支持多种目标显示器类型_杜比实验室特许公司_202380019904.6

一种目标物体识别方法及装置_华为技术有限公司_202010403134.3

一种目标对象的跟踪方法及装置_山东矩阵软件工程股份有限公司_202411252667.0

损失相关技术

一种活性石灰回转窑低热量损失复合砖_山西贤峰新材料技术研发有限公司_202410915404.7

WPIoU损失函数构建方法及YOLOv8检测方法_无锡学院_202411215008.X

一种负角度无损失钻孔取样装置及取样方法_太原理工大学_202011166691.4

一种基于跨模态损失的目标语音分离方法及系统_山东大学_202410209637.5

基于镜像对比损失和滑动窗口Transformer的运动想象脑电信号识别算法_西安理工大学_202410863374.X

一种排烟热损失低的循环流化床锅炉_湖州嘉骏热电有限公司_202323353521.9

一种分治损失约束下的无监督红外与可见光图像融合方法_南昌航空大学_202411039594.7

基于广义类平衡损失的图像分割方法_西安电子科技大学_202410767592.3

基于区域损失的道路病害图像语义分割方法_河北工业大学_202410742319.5

一种低精度损失的图像检测模型压缩方法_西北工业大学_202410820121.4

语音相关技术

语音合成模型的训练方法、语音合成方法、装置及介质_北京达佳互联信息技术有限公司_202411060993.1

语音识别模型的训练方法、语音识别方法及相关装置_平安科技(深圳)有限公司_202411016780.9

语音处理方法、直播的语音播放方法、装置、设备及系统_淘宝(中国)软件有限公司_202010014609.X

一种语音收集组件_南京控维高新科技有限公司_202420337114.4

语音交互方法及电子设备_荣耀终端有限公司_202310797626.9

一种本地引擎语音识别及交互方法_广州市昇博电子科技有限公司_202010853309.0

语音控制方法、装置及电子设备_深圳市冠旭电子股份有限公司_202410824264.2

一种语音数据分析方法及系统_上海通创信息技术股份有限公司_202410749637.4

一种智能语音交互机器人系统_北京云行在线软件开发有限责任公司_202411237327.0

一种车载用语音控制方法以及装置_中国第一汽车股份有限公司_202210456056.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于跨模态损失的目标语音分离方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务