买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:阿里巴巴集团控股有限公司
摘要:提供了用于实现源分离技术的方法和系统,并且更具体地,对通过从捕获的图像数据输入唇动信息而增强的混合源单声道和多声道音频信号执行源分离,包括从关注时段内捕获的多个面部图像的中选择目标说话者面部图像;基于目标说话者面部图像的面部特征计算运动矢量;至少基于运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源音频信号相分离。可以从单声道或多声道音频捕获设备捕获混合的源音频信号。可以通过包括多个学习子模型的融合学习模型来执行音频与音频信号的分离。可以通过盲源分离“BSS”学习模型来执行音频与音频信号的分离。
主权项:1.一种唇动增强的单声道和多声道声源分离方法,包括:基于在关注时段内捕获的预先指定的目标说话者对应的目标说话者面部图像的面部特征来计算运动矢量,其中,所述运动矢量至少包括LLD矢量和光流矢量,所述LLD矢量由所述目标说话者面部图像中多个样本像素的归一化位移矢量确定;和至少基于所述LLD矢量和所述光流矢量,将与成分源相对应的音频与在关注时段内捕获的混合源单声道音频信号相分离;其中通过从包括多个学习子模型的融合学习模型执行音频与音频信号的分离。
全文数据:
权利要求:
百度查询: 阿里巴巴集团控股有限公司 唇动增强的单声道和多声道声源分离
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。