买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广东技术师范大学
摘要:本申请公开了一种基于深度融合的多粒度图像‑文本匹配方法及系统,方法包括:将待匹配图像进行多粒度视觉编码,得到编码后图像;将待匹配文本进行多粒度视觉编码,得到编码后文本;基于编码后图像和编码后文本训练编码器,得到初始编码器;对初始编码器进行深度融合,得到跨模态编码器;对跨模态编码器进行训练,得到最终模型,利用最终模型完成图像和文本的匹配。本申请利用模态内和模态间的特征来训练不同的编码器,避免两者之间的相互干扰,从而有效的学习个模态的特征表示,同时降低了对算力资源的要求。采用了深度融合的方法,更加充分的学习不同模态间复杂的关联。在多粒度视觉编码器训练过程中,引入硬负对,以提高检索时的匹配精度。
主权项:1.一种基于深度融合的多粒度图像-文本匹配方法,其特征在于,步骤包括:将待匹配图像进行多粒度视觉编码,得到编码后图像;得到所述编码后图像的方法包括:将待匹配图像分割成不重叠的斑块,并线性地嵌入所有的所述斑块,得到若干补丁;将所述补丁传递至预训练的图像编码器,进行多粒度视觉编码;在不同的粒度下创建N+1个的概念表示,得到所述编码后图像;将待匹配文本进行多粒度视觉编码,得到编码后文本;进行所述多粒度视觉编码的方法包括:利用特殊标记[CLS]将输入文本中的单个句子和一对句子分开,完成所述多粒度视觉编码;基于所述编码后图像和所述编码后文本训练编码器,得到初始编码器;得到所述初始编码器的方法包括:在编码器训练过程中,引入硬负对,具体的,设定一对V,T,其中,T表示V的肯定的例子,并将其他N-1文本视为否定的例子;定义余弦相似度:sV,T=gvvclsTgwwcls;式中,wcls表示文本编码器的输出[CLS]嵌入;gv和gw是将[CLS]嵌入映射到规范化的低维表示的转换;成批处理的视觉文本相似度包括: 文本与视觉的相似性包括: 式中,是一个可学习的温度参数;首先定义对比损失p和y之间的交叉熵为H,之后计算对比损失得分: 式中,Lc1为对比损失得分,EV,T~D表示期望值;将初始编码器特征进行深度融合编码,得到跨模态编码器;所述跨模态编码器主干为多路变压器,每个多路变压器由一个共享的自注意模块和一个用于不同模态的前馈网络池组成;根据输入令牌的方式将每个输入令牌路由给专家,每个层都包含一个视觉专家和一个语言专家;此外,前三层都有为融合编码器设计的视觉-语言专家,使用模态专家鼓励模型捕获特定于模态的信息;利用共享的自我注意模块学习不同模式之间的对齐;对所述初始编码器和所述跨模态编码器进行训练,并联合得到最终模型,利用所述最终模型完成图像和文本的匹配;对所述初始编码器和所述跨模态编码器进行训练包括:首先,查询每个图像对应的前k个文本,并按降序排列;查询每个图像对应的前k个文本的方法为:topk_v2t_sim,topk_v2t_idx=topkpv2t;查询每个文本对应的前k个图像的方法为:topk_t2v_sim,topk_t2v_idx=topkpt2v;然后,使用训练好的跨模态编码器再次对检索结果进行优化;最后,以权重方式表示模态内和模态间的相似性,权重的计算方法为: 生成与第c张图像最相似的文本特征为: 与第c个文本最相似的图像特征为:
全文数据:
权利要求:
百度查询: 广东技术师范大学 一种基于深度融合的多粒度图像-文本匹配方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。