Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜福州大学柯逍获国家专利权

恭喜福州大学柯逍获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜福州大学申请的专利基于模态特异自适应缩放与注意力网络的跨模态检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115080699B

龙图腾网通过国家知识产权局官网在2025-01-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210787446.8,技术领域涉及:G06F16/3331;该发明授权基于模态特异自适应缩放与注意力网络的跨模态检索方法是由柯逍;陈柏涛;蔡宇航设计研发完成,并于2022-07-04向国家知识产权局提交的专利申请。

基于模态特异自适应缩放与注意力网络的跨模态检索方法在说明书摘要公布了:本发明涉及一种基于模态特异自适应缩放与注意力网络的跨模态检索方法。首先对图像模态采用带残差空间缩减的Transformer编码器,对文本模态采用单词级特征注意力模块,分别进行模态不变特征的提取。然后使用模态嵌入级特征注意力模块进行模态干扰特征的过滤。接着采用融合先验知识的自适应缩放网络将特征映射到一个多模态公共子空间进行模态公共特征学习。最后利用表现最好的网络权重计算新的待查询、待检索数据的多模态公共子空间特征,进行类别级重排序,返回最终的跨模态数据检索。本发明能够有效的对多模态数据进行建模,高效准确地完成多模态场景下的跨模态检索任务。

本发明授权基于模态特异自适应缩放与注意力网络的跨模态检索方法在权利要求书中公布了:1.一种基于模态特异自适应缩放与注意力网络的跨模态检索方法,其特征在于,包括如下步骤:步骤S1、对图像模态采用带残差空间缩减的Transformer编码器,对文本模态采用单词级特征注意力模块,分别进行模态不变特征的提取;步骤S2、对使用步骤S1得到的模态不变特征采用结构相同但参数独立的模态嵌入级特征注意力模块进行模态干扰特征的过滤;步骤S3、采用融合先验知识的自适应缩放网络将由步骤S2得到的特征映射到一个多模态公共子空间进行模态公共特征学习;步骤S4、遵循步骤S1、S2、S3进行神经网络的训练,保留表现最好的网络权重;利用该组网络权重计算新的待查询、待检索数据的多模态公共子空间特征,进行跨模态数据检索;所述步骤S1具体实现如下:步骤S11、对于图像模态,按照4行4列均匀地将输入的图片切分成N=16张子图,每张子图的长宽均为原图的14;采用卷积操作提取每个子图的块嵌入x0,x1...,xN-1,并额外加上一个可学习的块嵌入xextra;按照公式1-1和公式1-2为每个块嵌入加上位置嵌入: 其中pos是块的位置,dim_i表示位置嵌入的第dim_i个维度,d是块嵌入的维度为256;将每个长度为256的块嵌入x0,x1...,xN-1缩放为16×16的特征图,并将所有块嵌入在通道维度进行叠加,得到一个N×16×16的多通道特征图;利用一个层归一化和N2个5×5的卷积核扩大特征图,降低一半通道数;同时通过一个平均池化和零填充额外加上一个残差连接;再按照通道进行切分,将每个通道的特征图重新映射为新的块嵌入;由于序列长度发生改变,为新的块嵌入重新计算并添加位置嵌入来更新相对位置信息得到经过残差空间缩减的块嵌入x′0,x′1...,x′N-1;按照公式1-3至公式1-6计算图像模态表示:z0=[xextra;x′0WP;x′1WP;...;x′N-1WP]+epos1-3z′l=MHALNzl-1+zl-1,l=1...L1-4zl=MLPLNz′l+z′l,l=1...L1-5 其中,z0,z′l,zl是临时变量,L表示图像分块总个数,l表示第l个分块,WP表示可学习的参数矩阵,xextra是额外加入的可学习的块嵌入,它对应的输出经过一个MLP运算后得到的结果被作为图像模态的表示zimg;epos表示加入的一维位置嵌入;LN表示层归一化;MHA表示多头注意力,它对输入数据进行多个自注意操作;MLP代表多层感知机,包含线性投影1、GeLU激活函数、线性投影2;在模型中,使用一个额外的MLP头来获得首个块嵌入对应的输出作为图像模态的表示;步骤S12、对于文本模态,单词级特征注意力模块先使用Word2Vec方法,将文本描述的每个单词转化成一个300维的词嵌入,然后对所有词嵌入采用一个共享权重的权重生成单元,包括一个全连接层FC、一个ReLU激活函数、一个平均池化层AvgPooling和一个Sigmoid层;权重生成单元为每个词嵌入生成一个权重,进行加权平均得到文本模态的表示;具体来说,遵循以下公式 表示第n_i条文本数据的第n_j个单词对应的词嵌入,是300维的临时变量,是数值型的临时变量,是权重向量,en_i′是词嵌入融合之后的文本表示;所述步骤S3具体实现如下:步骤S31、每次训练开始前,使用一个预分类网络对利用预训练骨干网络提取的各模态特征进行初始化的分类,分类准确率accmodal_i表示为第modal_i个模态的预分类准确率;记矩阵A=acc1...accm,其中,m为模态的数量;模态特异缩放因子smodal_i如下列公式所示: 其中,θ为训练过程中可学习的m维向量;初始化时,结合“越复杂的任务需要越大的网络,越简单的任务需要越小的网络”这一人工先验,将上述函数初始化为定义域[0,1]之间非负单调递减的随机函数;将模态特异缩放因子smodal_i作为自适应缩放编码器与解码器的缩放因子;步骤S32、如公式3-2所示,训练过程中最小化第modal_i个模态的缩放损失其中acc包括第modal_i个模态的分类准确率accmodal_i和第modal_j个模态的分类准确率accmodal_j是辅助分类器的分类精度,m为模态的数量: 步骤S33、按照以下公式进行参数smodal_i的更新: 其中,smodal_i′是smodal_i更新之后的值,lr为学习率;acc会随着网络的训练发生变化,仅在更新smodal_i时使用acc,而不对acc进行更新。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福州大学,其通讯地址为:350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。