首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种多样性提示学习的少样本遥感目标识别泛化性的方法 

申请/专利权人:大连理工大学

申请日:2024-04-29

公开(公告)日:2024-07-05

公开(公告)号:CN118097442B

主分类号:G06V20/10

分类号:G06V20/10;G06V10/80;G06V10/764;G06V10/82;G06V10/774;G06N3/0455;G06N3/0895

优先权:

专利状态码:有效-授权

法律状态:2024.07.05#授权;2024.06.14#实质审查的生效;2024.05.28#公开

摘要:本发明属于计算机视觉图像处理技术领域,一种多样性提示学习的少样本遥感目标识别泛化性的方法。用图像文本多模态的方式进行训练,将多个含有可学习的提示的文本向量输入参数固定的文本编码器得到文本特征,将图像输入到参数固定的图像编码器得到图像特征,用分类损失和风格多样性损失更新提示参数,直至DPL模型收敛。本发明在原CLIP模型的改进模型CoOp的基础上,增加多个不同的提示来提高文本风格描述的多样性。为使风格描述间互相远离,提出风格多样性损失,用使提示特征两两正交的方式使提示特征相互远离,从而提升模型的泛化性。为了使文本风格描述不偏离原始图像类别信息,用分类损失加以约束。本发明的方法提升了少样本遥感图像识别的泛化性。

主权项:1.一种多样性提示学习DPL的少样本遥感目标识别泛化性的方法,其特征在于,步骤如下:1构建模型模型整体结构由CLIP模型构成;CLIP模型是多模态结构,分为文本端和图像端两个输入分支;文本端使用文本编码器,由Transformer网络组成;文本编码器首先在作为输入的文本向量上加上位置编码获取文本向量的位置信息,再经过层归一化、遮罩多头注意力和全连接层,得到文本特征;图像端使用图像编码器,选用Vit-32的视觉Transformer结构,其中32表示输入图像块的数量;在CLIP模型中,文本端的输入是“提示+类别”的结构;提示有多种不同的形式,根据图像的风格选用适合的提示作为文本的描述,组合不同的类别,得到多个文本,如公式1所示:t={content+[CLASS]1,content+[CLASS]2,…,content+[CLASS]C}1其中,content是提示的文本描述;[CLASS]c是类别文本描述,C是类别数,c∈C;文本编码成文本向量的形式输入到文本编码器中;图像端的输入是图像;文本编码器和图像编码器分别输出文本特征和图像特征,用对比学习的方式让同一类别的正样本图像特征和文本特征彼此相近,并使不同类别的图像特征和文本特征彼此远离,将文本特征和图像特征映射到同一特征空间中,再用softmax进行归一化,得到的原始的CLIP分类损失如公式2所示: 其中,sim是余弦相似度;fI是图像特征;是正样本文本特征,即与fI相同类别的文本特征;是第j个文本特征;τ是温度系数;在推理过程中,文本编码器相当于分类器,将不同类别的文本向量输入到文本编码器中,将待测试的图像输入到图像编码器中,判断不同类别的文本特征与待测试的图像特征的相似度,相似度最高的文本向量即为图像的类别;2多样性提示为了将CLIP模型迁移到单一专业领域数据集,使用CoOp模型对CLIP模型做出改进:CoOp模型加载CLIP模型训练好的图像编码器和文本编码器的参数并固定,将文本端的提示变为可学习的提示向量,通过学习提示向量使CoOp模型在单一专业领域数据集有好的表现;文本端引入可学习的提示向量来训练CoOp模型,如公式3所示:t=p+[CLASS]3其中,p=[V]1[V]2…[V]K是提示向量,即文本的抽象描述;[V]k是单词向量,由初始单词经过编码得到,k∈K;[CLASS]是图像的类别描述;为了提高文本提示的多样性,防止过拟合,在CoOp模型的基础上进一步改进,得到DPL模型;在文本端引入多个可学习的提示向量{p1,p2,…,pM},则多个文本向量表示为:{t1,t2,…,tM}={p1+[CLASS],p2+[CLASS],…,pM+[CLASS]};3风格多样性损失多个提示可避免模型的过拟合;如果不对提示施加约束,DPL模型沿着最适合当前数据集的方向学习,多个提示可能会学习到相同的参数;为此,提出一种风格多样性损失,在文本特征空间上拉远提示特征之间的距离,使其广泛地分布在整个空间中,提高DPL模型的泛化性能;风格多样性损失如公式4所示: 其中,M是提示个数,fi和fj是不同的提示特征,即fi=ftpi,ft是文本编码器;sim是余弦相似度,即该风格多样性损失使提示输入到文本编码器后的特征两两正交,来最大化特征之间的距离;4分类损失虽然用风格多样性损失可最大化提示特征之间的距离,使提示特征具有多样的风格,但是容易偏向另一个极端,即过于多样造成文本风格描述不准确,偏向负样本信息的描述,导致分类结果不准确;为此,用分类损失来约束风格多样的提示,实现准确分类;分类损失是输入到文本编码器的文本特征和输入到图像编码器的图像特征之间做对比学习,也就是最大化正样本的图像和文本对之间的相似度,最小化负样本图像和文本对之间的相似度;该分类损失与原始的CLIP分类损失类似,唯一区别是文本特征有多个,需要多个图像和文本对的分类损失相加;分类损失如公式5所示: 其中fI是图像特征,是与图像类别相同的正样本文本特征,是第j个类别的第m个文本特征,M是提示个数;DPL模型的总损失如下:L=Lcls+βLdiv6其中,Lcls是分类损失,Ldiv是风格多样性损失,β是平衡两个损失的超参数,取0.5。

全文数据:

权利要求:

百度查询: 大连理工大学 一种多样性提示学习的少样本遥感目标识别泛化性的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。