恭喜杭州电子科技大学俞俊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州电子科技大学申请的专利一种基于跨模态预训练特征增强的视觉问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114663677B 。
龙图腾网通过国家知识产权局官网在2025-04-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210368717.6,技术领域涉及:G06V10/44;该发明授权一种基于跨模态预训练特征增强的视觉问答方法是由俞俊;高鹏昺;余宙设计研发完成,并于2022-04-08向国家知识产权局提交的专利申请。
本一种基于跨模态预训练特征增强的视觉问答方法在说明书摘要公布了:本发明公开了一种基于跨模态预训练特征增强的视觉问答方法。本发明建模相对空间关系特征,利用语义对齐的局部全局视觉特征和语言特征,结合特征增强模块以及深度堆叠的语言侧SA模块、视觉侧RGA模块来获得更加丰富的复合语义信息,最后通过局部全局特征融合模块输出综合特征进而用于预测答案。该方法在视觉问答任务上取得了显著性的提升效果,超越了众多使用传统物体特征或网格特征作为视觉特征的方法,甚至优于许多使用视觉‑语言“预训练‑微调”范式的模型。
本发明授权一种基于跨模态预训练特征增强的视觉问答方法在权利要求书中公布了:1.一种基于跨模态预训练特征增强的视觉问答方法,其特征在于,包括如下步骤:步骤1:数据集的划分;首先对视觉问答的图像集和问题答案标注集进行训练集、验证集、测试集的划分;步骤2:构建问题的局部和全局语言特征;对于一个输入问题,首先根据分词表对其进行分词并填充至固定的分词数量T,然后使用预训好的词向量模型,将问题的分词表示转换为包含语义信息的词嵌入再通过跨模态预训练好的CLIP语言编码器得到局部语言特征T为语言特征单词数量,dt为单个单词语言特征的维度;从局部语言特征Qloc中选取问题分词表示中结束符EOS位置处l∈[1,T]对应的单词特征通过一个线性变换得到问题的全局语言特征步骤3:构建图像的局部和全局视觉特征;对于一张输入图像,首先对其进行预处理,采用双立方插值将图像缩放至固定的正方形尺寸P×P,然后对图像像素进行归一化处理;使用跨模态预训练好的CLIP视觉编码器提取出最后一层的特征图该特征图经过形状变换成网格特征形式作为图像的局部视觉特征G为网格数量dv为单个网格特征的维度;局部视觉特征Vloc进一步经过注意力池化机制和线性变换得到全局视觉特征步骤4:构建相对空间关系特征;针对一张输入图像的局部视觉特征,计算所有网格的空间坐标G为网格数量;对所有网格两两计算得到相对空间关系特征步骤5:构建深度神经网络;所述的深度神经网络包括语言特征增强模块、视觉特征增强模块、语言侧深度堆叠SA模块、视觉侧深度堆叠RGA模块、语言特征注意力消融模块、视觉特征注意力消融模块、局部全局特征融合模块和答案概率分布预测模块;局部语言特征Qloc通过语言特征增强融合模块得到融合局部语言特征局部视觉特征Vloc通过视觉特征增强融合模块得到融合局部视觉特征融合局部语言特征Qfuse通过语言侧深度堆叠SA模块得到复合语言特征融合局部视觉特征Vfuse通过视觉侧深度堆叠RGA模块得到复合视觉特征复合语言特征Q'fuse经过语言特征注意力消融模块得到综合局部语言特征复合视觉特征V'fuse经过视觉特征注意力消融模块得到综合局部视觉特征综合局部语言视觉特征qloc、vloc和全局语言视觉特征qglo、vglo进一步通过局部全局特征融合模块输出综合特征通过答案概率分布预测模块的答案线性投影矩阵最终输出预测答案概率A为候选答案集大小;步骤6:构建损失函数;将步骤5中输出的预测答案概率分布同对应的正确答案分数分布一起输入到相应的损失函数中,计算得到损失函数值;步骤7:训练模型;深度神经网络模型在步骤1中的训练集上进行训练,每轮在验证集上验证模型性能;根据步骤6中的损失函数产生的损失函数值利用反向传播算法对深度神经网络模型参数进行梯度回传,不断优化,直至整个网络模型收敛;步骤8:答案预测值计算;在模型验证或测试阶段,根据深度神经网络的预测答案概率分布选择概率值最大的索引对应的单词作为预测答案。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。