买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东大学
摘要:本发明涉及基于跨模态交互推理的图像指代物体分割方法及系统,包括:对给定图片进行理解并生成相应的视觉特征;对给定查询语句进行有效表征,生成文本特征;文本特征与视觉特征联合编码;构建多模态图,进行跨模态图推理,进行目标物体的粗定位;对不同尺度下的跨模态特征进行特征增强,细化分割结果。本发明可以结合对视觉信息的理解来增强语言表达,进而在语言表达的不断引导下对重要的视觉特征进行编码。本发明使用多模态特征和语言特征构建多模态图,然后通过跨图交互和图内推理定位目标物体。本发明在多尺度上增强多模态特征,对来自编码阶段的特征自底向上地逐步细化,以实现精细分割。
主权项:1.基于跨模态交互推理的图像指代物体分割方法,其特征在于,包括:对给定图片进行理解并生成相应的视觉特征;对给定查询语句进行有效表征,生成文本特征;在视觉特征逐步生成的过程中依次嵌入文本特征,与视觉特征联合编码;利用深层视觉特征与文本特征构建多模态图,进行跨模态图推理,进行目标物体的粗定位;利用跨模态注意力增强模块,对不同尺度下的跨模态特征进行特征增强,细化图像指代物体分割结果;在视觉特征逐步生成的过程中依次嵌入文本特征,与视觉特征联合编码,包括:生成的视觉特征记作fv;生成的文本特征记作fe,文本特征fe包括整句特征fel与逐词特征few,对于给定的视觉特征fv和逐词特征few,通过计算像素-单词亲和矩阵Av→e来分析每个像素与每个单词之间的关系,如式1所示: 式1中,wv和wew均为可学习参数,flatten·表示将二维矩阵展平为一维向量的操作,代表矩阵乘法;通过聚合每个像素与每个单词之间的关系来评估每个词的重要性,在视觉信息的辅助下产生一种新的语言表达理解,称为视觉感知词嵌入,如式2所示: 式2中,GAP·表示全局平均池化操作;repeat·表示在某一维度上进行复制,⊙表示矩阵间的逐元素乘法;为嵌入视觉信息后的文本特征;结合更新后的文本特征与原始文本特征即整句特征fel,得到新的整句级别的语义向量如式3所示: 新获得的表示增强的语言表达,包含对视觉信息的理解;通过融合增强的语言表达和视觉特征,对视觉特征和语言特征进行联合编码,生成视觉-语言联合嵌入fv,e,如式4所示: 式4中,λ为可学习参数,用于调整多模态嵌入对原始视觉特征的影响;⊙表示矩阵间的逐元素乘法;repeat·表示在某一维度上进行复制;将第i层所对应的输出分别记为和其中,i∈{1,2,3,4,5}。
全文数据:
权利要求:
百度查询: 山东大学 基于跨模态交互推理的图像指代物体分割方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。