首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于知识蒸馏的隐空间语义监督的跨模态检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学

摘要:本发明公开了一种基于知识蒸馏的隐空间语义监督的跨模态检索方法,整个网络的总体结构大体上可以分成四个部分:第一个部分:多模态特征提取网络,第二个部分:图像和文本隐空间的构建,第三个部分:基于知识蒸馏的隐空间语义监督,第四个部分:图像文本匹配。本发明将BUA中的目标分类器和属性分类器引入图像隐空间,通过知识蒸馏将BUA中的语义知识转移到图像隐空间中。本发明在文本隐空间中引入目标和属性分类器,使文本特征和相应的文本上下文特征保持一致。本发明的方法可以很好地进行跨模态检索,并在多个数据库上取得了具有竞争力的结果。

主权项:1.一种基于知识蒸馏的隐空间语义监督的跨模态检索方法,其特征在于所述方法包括如下步骤:步骤一、对于图像-文本对中的图像部分,使用BUA作为图像分支的基础图像网络,选择图像-文本对中的图像作为图像分支的输入,针对每个图像输出一组显著区域的特征来表示该图像V={v1,...,vj,...,vn},n是检测区域的数量,d表示图像区域特征的维度;步骤二、对于图像-文本对中的文本部分,使用词编码将每个token编码为词向量,然后使用双向GRU作为文本分支的基础文本网络,将单词序列转化为文本表示ui表示第i个文本单词的特征,m是输入单词的数量;步骤三、构建图像区域特征和文本单词特征之间的细粒度相似性矩阵,利用注意力机制分别用所有的图像区域特征的加权和表示图像区域上下文化的单词特征Uc,用所有文本单词的加权和表示单词特征上下文化图像区域特征Vc,根据V和Vc定义图像隐空间,根据U和Uc定义文本隐空间;步骤四、在图像隐空间中引入BUA的目标分类器和属性分类器,通过知识蒸馏,将BUA中的语义知识转移到图像隐空间中,从而对图像区域特征和对应的图像上下文特征进行语义监督,如下式所示: 式中,和表示图像区域特征和对应的图像上下文特征的目标分类器,ov和ovc分别表示图像区域特征和对应图像上下文特征的目标分类信息,和分别是图像区域特征和对应的图像上下文特征的属性分类器,av和avc表示图像区域特征和对应的图像上下文特征的属性分类信息;步骤五、在文本隐空间中引入目标分类器和属性分类器,对每个单词特征和对应的单词上下文特征进行目标分类和属性分类,如下式所示: 其中,和表示单词特征和对应的单词上下文特征的目标分类器,ou和ouc分别表示单词特征和对应的单词上下文特征的目标分类信息,和分别是单词特征和对应的单词上下文特征的属性分类器,au和auc表示图像区域特征和对应的图像上下文特征的属性分类信息;步骤六、分别在图像隐空间和文本隐空间进行图像区域细粒度一致性匹配和单词细粒度一致性匹配,具体步骤如下:步骤六一、图像区域细粒度一致性匹配:首先计算图像区域特征V与对应图像上下文特征Vc之间的区域相似性,然后应用t个全连接层来学习每个图像区域之间的对应关系,如下式所示: 式中,“||”表示concate,diag·将矩阵的对角元素作为向量返回,和是第k个全连接层待学习的参数,σ表示对应的激活函数,表示图像隐空间匹配特征;图像区域细粒度一致性匹配得分计算如下式所示:Sv=σWvVs+bv;式中,Wv、bv为MLP的参数;步骤六二、单词细粒度一致性匹配:首先计算单词特征U与对应单词上下文特征Uc之间的逐单词字相似度,然后应用t个全连接层来学习每个单词之间的对应关系,如公式所示: 其中,和是第k个全连接层要学习的参数,表示文本隐空间匹配特征;单词细粒度一致性匹配得分计算如下式所示:Su=σWuUs+bu;其中,Wu、bu为MLP的参数;步骤七、优化目标:步骤七一、采用带有难负样本挖掘的铰链损失函数进行细粒度相似性匹配监督;步骤七二、采用KL散度损失函数进行图像隐空间中的语义一致性监督;步骤七三、采用交叉熵损失函数进行文本隐空间中的语义一致性监督。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 基于知识蒸馏的隐空间语义监督的跨模态检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。