首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种分层监督跨模态图文检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:桂林电子科技大学

摘要:本发明公开了一种分层监督跨模态图文检索方法,所述的方法包括步骤如下:S1:构建用于提取图像特征和文本特征的特征提取网络;S2:利用特征提取网络提取图像和文本特征,分别得到图像和文本的初步高维特征值;S3:构建模态对抗网络,将图像和文本的初步高维特征值输入模态对抗网络进行对抗学习,使得含有相同语义的不同模态在公共空间中的距离最近;S4:构建哈希码生成网络,并利用哈希码生成网络约束特征提取网络的最后一层全连接层,使得通过最后一层全连接层的图像和文本的初步高维特征值,生成最优哈希码,实现对跨模态数据检索。本发明能实现对具有分层监督跨模态数据的检索,提升跨模态检索效率。

主权项:1.一种分层监督跨模态图文检索方法,其特征在于:所述的方法包括步骤如下:S1:构建用于提取图像特征和文本特征的特征提取网络;S2:利用特征提取网络提取图像和文本特征,分别得到图像和文本的初步高维特征值;S3:构建模态对抗网络,将图像和文本的初步高维特征值输入模态对抗网络进行对抗学习,使得含有相同语义的不同模态在公共空间中的距离最近;所述的模态对抗网络使用E个具有三层全连接层的网络,第一个隐藏层的结点数与输入的特征维度一样;第二个隐藏层的结点数与第e层标签层的标签总数Φe一致;第三层结点数为2,其激活函数是Sigmoid函数,输出为二值码,0表示图像模态,1表示文本模态;其中,E代表图像文本对的标签层数,标签层的索引自上而下为{1,2,...,E};S4:构建哈希码生成网络,并利用所述的哈希码生成网络约束所述的特征提取网络的最后一层全连接层,使得通过最后一层全连接层的图像和文本的初步高维特征值,生成最优哈希码,实现对跨模态数据检索;所述的哈希码生成网络包括:不同标签层关联子模块,通过引入标签层内相似性损失和标签层间相关性损失,来充分挖掘每一层标签存在的内在相似度和标签层间存在的相关性;所述的不同标签层关联子模块包括2个分支,分别是标签层内相似性损失、标签层间相关性损失;在标签的层次结构中,为了保持每一层标签的相似性,为每一层的每个标签生成标签哈希码定义标签层内相似性损失函数: 其中,Ce是第e层的类别哈希码;代表每一组图像文本对数据集βi的标签向量,其中表示第i个图像文本对数据被第e层的第j个标签标记,否则,fxi,Wf表示原图像经过特征提取网络中的第二层全连接层的输出,其中Wf表示提取图像特征网络的网络参数;gti,Wg表示文本经过特征提取网络中的第二层全连接层的输出,其中Wg表示提取文本特征网络的网络参数;ζe是第e层标签的置信度,所有标签层的置信度之和为1;为了充分获取跨层相关性,定义跨层标签相似度矩阵,即: 其中,e∈{1,2,...,E-1},ei代表第e层的第i个标签,E代表最后一层标签;表示第E层的第j个标签是第e层的第i个标签的子孙结点,否则为0;则标签层间相关性损失函数表示为: 其中,CE是第E层标签的哈希矩阵,ηe代表超参数,且不同语义类别区分子模块,通过设计一个不同语义类别区分的总目标函数,使不同语义的模态数据在公共空间中彼此保持一定的距离,从而避免不同语义数据对检索的干扰;在不同语义类别区分子模块,设计一个不同语义类别区分的总目标函数具体如下:在公共空间中,根据不同语义类别、不同模态数据之间的距离应当尽可能远,从而定义第一目标函数表示为: 其中,disW,V表示两个点W=w1,w2,...,wn和V=v1,v2,...,vn的余弦距离,Fxi和Fxj代表图像特征,Gti和Gtj代表文本特征;在公共子空间,根据不同语义类别、相同模态的数据应当分离,从而定义第二目标函数表示为: 不同语义类别区分模块总损失函数表示为: 其中,N表示数据集中图像文本对数;跨模态哈希损失子模块,将初步高维特征值转换为最优编码长度哈希码,以压缩数据维度并降低数据存储空间,实现对跨模态数据精准快速的检索;将特征提取网络中第二层全连接层的输出结果引入到跨模态哈希模块中,定义跨模态哈希损失函数如下所示: 其中,分别是图像和文本模态数据学习到的哈希码;代表斐波那契范数。

全文数据:

权利要求:

百度查询: 桂林电子科技大学 一种分层监督跨模态图文检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。