买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:阿里巴巴集团控股有限公司
摘要:公开了一种视听任务处理装置、方法和系统。该装置包括:听觉链路,包括听模块用于将获取的语音输入转换为输入语音特征,以及说模块用于将生成的输出语音特征转换为语音输出;视觉链路,包括视觉识别模块用于将获取的图像输入转换为输入图像特征,以及视觉重建模块用于将生成的输出图像特征转换为图像输出;联络模块,用于:获取所述输入语音特征和或所述输入图像特征;确定所述输入语音特征和或输入图像特征的含义;基于确定的含义,进行语音特征与图像特征的关联;基于所述关联的结果,生成输出语音特征和或输出图像特征。本发明深度模拟人脑在信息处理时的操作,通过结合视觉和听觉两者并进行更高层级的信息关联,处理更复杂的视听任务。
主权项:1.一种视听任务处理装置,包括:听觉链路,包括听模块和说模块,其中所述听模块用于:获取视听任务中的语音输入;处理所述语音输入以获取输入语音特征,所述说模块用于:获取所述视听任务处理结果中的输出语音特征;将所述输出语音特征转换为语音输出,视觉链路,包括视觉识别模块和视觉重建模块,其中所述视觉识别模块用于:获取视听任务中的图像输入;处理所述图像输入以获取输入图像特征,所述视觉重建模块用于:获取所述视听任务处理结果中的输出图像特征;将所述输出图像特征转换为图像输出,联络模块,用于:获取所述听觉链路的输入语音特征和所述视觉链路的输入图像特征;确定所述输入语音特征和输入图像特征的含义;基于确定的含义,进行语音特征与图像特征的关联;基于所述关联的结果,生成输出语音特征和或输出图像特征,其中,所述视听任务是其输入和正确输出包括语音和图像两者的任务,并且所述联络模块包括:维尔尼克子模块,用于将所述输入语音特征分解为单词和或短语语音特征;角回子模块,用于确定所述单词和或短语语音特征的抽象含义;颞中回子模块,用于关联对应含义的语音特征和图像特征,并根据语音特征,修改针对图像特征的处理范围;以及布洛卡子模块,用于将生成的单词和或短语语音特征合成为输出语音特征。
全文数据:
权利要求:
百度查询: 阿里巴巴集团控股有限公司 视听任务处理装置和方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。