Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜电子科技大学吴庆波获国家专利权

恭喜电子科技大学吴庆波获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜电子科技大学申请的专利一种基于对比学习与多模态对齐的视觉问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115481277B

龙图腾网通过国家知识产权局官网在2025-04-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211167934.5,技术领域涉及:G06F16/583;该发明授权一种基于对比学习与多模态对齐的视觉问答方法是由吴庆波;袁德森;孟凡满;李宏亮;许林峰;潘力立设计研发完成,并于2022-09-23向国家知识产权局提交的专利申请。

一种基于对比学习与多模态对齐的视觉问答方法在说明书摘要公布了:该发明公开了一种基于对比学习与多模态对齐的视觉问答方法,属于视觉问答领域,该方法在分布不平衡的视觉问答数据集下实现鲁棒的视觉问答。现有的基于数据增强的鲁棒视觉问答方法往往基于反事实样本增强,并把反事实样本作为数据增广添加入训练中,但并未在特征和预测层次中构建区分反事实样本的过程,未深入挖掘样本之间的关系。本发明提出了基于对比学习与多模态对齐的视觉问答方法来解决视觉问答中的语言偏见问题,通过在特征和预测层面进行对比学习来降低模型的复杂度,提高视觉问答模型的泛化能力,从而实现在语言偏见场景下鲁棒的视觉问答。

本发明授权一种基于对比学习与多模态对齐的视觉问答方法在权利要求书中公布了:1.一种基于对比学习与多模态对齐的视觉问答方法,该方法包括:步骤1、视觉问答问题的形式为:给定原始特征D={Ii,Qi,ai}N其包含N对图像Ii,问题Qi,回答ai;步骤2:采用反事实样本合成方法来增广的样本并作为训练样本,CSS为方法函数;I+,I-,Q+,Q-=CSSfvqa,I,Q,a1其中,fvqa为视觉问答任务的目标映射函数,I+,I-,Q+,Q-分别为图像的正事实样本,图像的反事实样本,问题的正事实样本,问题的反事实样本;CSS为反事实样本合成方法函数;步骤3:采用Faster-rcnn提取图像中的感兴趣区域,采用一个问题编码器eq提取问题的一组单词嵌入Q,采用一个物体检测器iq来提取感兴趣区域的一组视觉嵌入V;采用注意力机制将V和Q进行特征融合,得到混合特征FV,Q;采用如下方法将原始特征和正事实特征进行拉近,将正事实特征与反事实特征进行拉远; Lc1=fcFVe,Qe,FVe+,Qe,FVe-,QeLc2=fcFVe,Qe,FVe,Qe+,FVe-,Qe-Lc3=fcFVe,Qe,FVe+,Qe+,FVe-,Qe-Lc=Lc1+Lc2+Lc3其中,cos·表示余弦函数,x表示输入的特征即原始特征、正事实特征或反事实特征,+表示正事实特征,-表示反事实特征,xT表示转置,Lc为将三对特征输入对比损失函数中得到反事实的对比损失结果,并累加这三项后的损失,通过使Lc最小来拉近原始特征和正事实特征,拉远正事实特征与反事实特征;步骤4:将步骤3得到的原始特征、正事实特征、反事实特征输入分类器,得到分类向量,采用如下方法将分类向量进行拉近拉远处理; 其中,p,q为分类器输出的分类向量,表示计算p与之间的KL散度,pV-表示分类器输入图像为反事实特征的输出分类向量,p+表示对应的正样本组合,为针对原始样本的对比损失,为针对反事实样本的对比损失;步骤5:最终损失函数如下所示: 其中,Lvqa为模型的分类损失,λvqa、λc、λ分别表示对应的权重系数;通过优化该函数,使最终损失函数LCFT最小得到拉近拉远的分类向量,通过向量来判断分类结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。