首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

视听场景下的听觉注意解码方法、装置和助听系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:安徽大学

摘要:本申请涉及一种视听场景下的听觉注意解码方法、装置和助听系统,其中,该目标说话者定位方法包括;实时获取听者的脑电信号和视野图像;其中,所述脑电信号通过佩戴于听者头部的脑电信号采集设备采集得到,所述视野图像通过与听者头部同步运动的图像采集设备采集得到;将所述脑电信号和所述视野图像输入基于机器学习的听觉注意解码模型,通过所述听觉注意解码模型得到目标说话者的空间方位。本发明充分考虑了实际场景中可用于定位目标说话者的信息,进而能够更加准确地锁定目标说话者的空间方位,改进了现有的听觉注意解码算法,可以更加充分地注意目标说话者的声音,解决了目前的听觉注意解码算法对目标声源的定位准确性较低的问题。

主权项:1.一种视听场景下的听觉注意解码方法,其特征在于,包括:实时获取听者的脑电信号和视野图像;其中,所述脑电信号通过佩戴于听者头部的脑电信号采集设备采集得到,所述视野图像通过与听者头部同步运动的图像采集设备采集得到;将所述脑电信号和所述视野图像输入基于机器学习的听觉注意解码模型,通过所述听觉注意解码模型得到目标说话者的空间方位,所述目标说话者为所述听者关注的说话者;其中,所述听觉注意解码模型包括脑电模态流模块、视觉模态流模块、特征融合模块和带有激活函数的第一全连接层;通过所述听觉注意解码模型得到目标说话者的空间方位,包括:通过所述脑电模态流模块对所述脑电信号进行特征提取得到目标脑电特征;通过所述视觉模态流模块对所述视野图像进行特征提取得到目标视觉特征;通过特征融合模块对所述目标脑电特征和所述目标视觉特征进行融合得到多模态特征;通过所述第一全连接层对所述多模态特征进行预测得到预测结果;根据所述预测结果确定目标说话者的空间方位;其中,根据所述预测结果确定目标说话者的空间方位,包括:当所述目标说话者处于听者空间左侧的概率大于处于听者空间右侧的概率时,确定所述目标说话者处于听者空间左侧;当所述目标说话者处于听者空间左侧的概率小于处于听者空间右侧的概率时,确定所述目标说话者处于听者空间右侧;其中,所述脑电模态流模块包括卷积层、平均池化层、第一展平层和带有激活函数的第二全连接层;通过所述脑电模态流模块对所述脑电信号进行特征提取得到目标脑电特征,包括:依次通过所述卷积层和所述平均池化层对所述脑电信号进行处理得到中间脑电特征;依次通过所述第一展平层和所述第二全连接层对所述中间脑电特征进行处理得到所述目标脑电特征;其中,所述中间脑电特征的提取公式如下: ,其中,XEEG表示脑电信号,FEEG表示中间脑电特征,conv表示卷积操作,avgpool表示平均池化操作;所述目标脑电特征的提取公式如下: ,其中,表示目标脑电特征,flatten表示展平操作,dense表示全连接操作,sigmoid表示归一化激活操作;其中,所述视觉模态流模块包括VGG16模型、第二展平层和带有激活函数的三个第三全连接层;通过所述视觉模态流模块对所述视野图像进行特征提取得到目标视觉特征,包括:通过预训练的所述VGG16模型对所述视野图像进行特征提取得到中间视觉特征;依次通过所述第二展平层和三个所述第三全连接层对所述中间视觉特征进行处理得到所述目标视觉特征;其中,所述中间视觉特征的提取公式如下: ,其中,XImg表示视野图像,FImg表示中间视觉特征,vgg16表示VGG16模型的特征提取操作;所述目标视觉特征的提取公式如下: ,其中,表示目标视觉特征,flatten表示展平操作,dense表示全连接操作,relu表示线性整流操作,sigmoid表示归一化激活操作。

全文数据:

权利要求:

百度查询: 安徽大学 视听场景下的听觉注意解码方法、装置和助听系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。