买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:同济大学
摘要:本发明提出了一种基于区域提示的视觉语言目标检测器Zone‑YOLO,包括视觉编码器、文本编码器、Scale‑AwareVL‑PANNeck、wordembedding单词嵌入、zoneprompts区域提示、Adapter适配器、TextContrastiveHead图文对比头、ZoneHead,其中。本发明首创了尺度感知多模态融合模块,充分挖掘文本特征,学习在不同尺度下无缝融合多模态表征;本发明提出一种新的区域提示学习模块,将文本特征引入回归头,并捕获区域‑类别‑实例三重共现信息,显著提高了模型的定位性能。大量实验表明,ZoneYOLO取得了具有竞争力的结果,并证明了基于预训练VLOD的闭集检测微调的优越性。
主权项:1.一种基于区域提示的视觉语言目标检测器Zone-YOLO,其特征在于,包括视觉编码器、文本编码器、Scale-AwareVL-PANNeck、wordembedding单词嵌入、zoneprompts区域提示、Adapter、TextContrastiveHead图文对比头、ZoneHead,其中:所述视觉编码器使用预训练好的YOLOv8Backbone,输出的图像编码为多尺度图像特征;所述文本编码器使用CLIPtextencoder,输入的类名和区域短语,编码输出为wordembedding和zoneprompts;所述Scale-AwareVL-PANNeck将视觉编码器输出的多尺度图像特征以及文本编码器输出的wordembedding作为输入,实现多模态多尺度特征的对齐融合;所述TextContrastiveHead,将Scale-AwareVL-PANNeck的输出和wordembedding作为输入,计算图像特征和文本特征的相似度,进行对比学习;所述的Adapter,将文本编码器的输出wordembedding和zoneprompts作为输入,捕捉类别与区域的共现信息,得到类别相关的区域嵌入Class-specificzoneembedding;所述ZoneHead,将Scale-AwareVL-PANNeck和Adapter的输出作为输入,捕捉区域-类别-实体的三重共现,进而引导检测器更好地回归。
全文数据:
权利要求:
百度查询: 同济大学 一种基于区域提示的视觉语言目标检测器Zone-YOLO
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。