首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于草图和文本双重提示的自进化零样本目标识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明提供了一种基于草图和文本双重提示的自进化零样本目标识别方法,采用CLIP作为骨干网络,在DP‑CLIP框架中设计了视觉提示模块和文本提示模块,使用Transformer层从图像中提取类别知识并将其传输到一组可学习的向量中,然后将这些向量用作该类别的视觉提示,采用CLIP的文本编码器将目标类别标签嵌入到文本特征中,利用这些文本特征生成通道缩放向量,将缩放向量应用于CLIP视觉编码器的隐藏特征,引导模型关注与当前类别相关的通道。本发明有效地引导网络关注并捕捉该类别下有辨识性的视觉特征,以帮助网络进行草图‑照片图像的身份匹配,性能取得显著提升,直接迁移到其他的跨类别细粒度图像检索任务上。

主权项:1.一种基于草图和文本双重提示的自进化零样本目标识别方法,其特征在于包括如下步骤:步骤1:构建细粒度的ZS-SBIR目标识别的基础网络;基础网络由预训练的CLIP模型中的视觉编码器模型构成,同时处理手绘草图和照片图像提取目标特征;视觉编码器模型采用三元组损失作为监督,将同一身份的草图和照片作为正样本对,将不同身份的草图和照片看作负样本对,通过三元组损失拉近相同身份的图像特征和拉远不同身份的图像特征,引导网络提取身份相关的目标特征,学习草图和照片图像的身份分类;步骤2:构建视觉提示模型,为每个类别生成类别级视觉提示,并应用该视觉提示来关注并捕捉类别相关的辨识性视觉特征;步骤3:构建文本提示模型,为每个类别生成类别级文本提示,并将该文本提示应用到ViT模型中,引导模型关注该类别下的辨识性视觉特征;在视觉特征提取过程中,应用文本提示,帮助模型关注视觉特征中与当前类别相关的辨识性信息;此外,文本提示引导策略跟视觉提示引导策略也不相同,不是直接将文本提示插入到图像块特征中作为ViT层的输入,而是应用文本提示关注视觉特征中与类别相关的特征通道;步骤4:模型训练和测试;在模型训练时,采用当前图像的最终特征fg,即最后一层ViT层中[CLS]块向量的输出特征,用于计算损失函数;在训练过程中,采用三元组损失函数更新模型参数,仅更新构建的视觉提示模块参数、文本提示模块参数和ViT模型中的LayerNorm层参数,不更新ViT模型的其他参数和文本处理模型的参数;在测试时,测试类别与训练类别之间不存在重合,即在未见的新类别上进行测试,因此是一个类别级的零样本识别任务;对于每个测试类别,首先提取该类别下的视觉提示和文本提示,然后在ViT模型上应用双模态提示信息提取每个草图索引和照片库中所有照片的最终特征;之后,对于每张草图索引Sn,通过正弦相似性计算该草图特征与所有照片特征之间的特征相似性,然后将特征相似性按照从高到低进行排序,特征相似性最高的照片为与草图索引Sn表示相同身份的目标,也即对该草图索引Sn的目标识别结果。

全文数据:

权利要求:

百度查询: 西北工业大学 基于草图和文本双重提示的自进化零样本目标识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。