买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江大学
摘要:本发明公开了一种基于Transformer特征聚类的缺省位置标签下图像目标定位方法。本发明通过基于Transformer深度学习的Vit模型获取融合特征图,并以融合类别信息特征向量为基准通过聚类的方式生成图像中的目标物体的粗略范围图,再进一步训练相应的直接判别模型来生成精确范围图,从而在不使用位置标签的情况下获得良好的物体目标定位准确度。本发明极大地减少了深度学习目标检测应用中的数据获取成本,减小了深度学习方法的应用难度。
主权项:1.一种基于Transformer特征聚类的在缺省位置标签条件下图像目标定位方法,其特征在于,包括以下步骤:S1、获取图像数据集,其中的每个图像样本预先标注有待识别物体的类别;S2、利用所述图像数据集对基于Transformer深度学习的ViT模型进行分类任务学习,直至ViT模型收敛后固定其模型参数,并将其作为主干模型;S3、将图像样本输入所述主干模型中由主干模型提取不同层次的特征图,且每一层次的特征图还对应有一个额外的类别信息特征向量;将主干模型输出的最后三层特征图以及三个类别信息特征向量进行加权融合,形成融合特征图和融合类别信息特征向量,将融合特征图沿深度方向提取特征向量,特征图上每个空间位置提取得到一个对应的一维特征向量;对提取到的所有一维特征向量与融合类别信息特征向量一并进行聚类,将特征图上与融合类别信息特征向量处于同一类簇的所有一维特征向量对应的空间位置标记为目标物体位置,从而形成每张图像样本对应的目标物体粗略范围图;S4、以图像样本通过主干模型得到的所述融合特征图作为输入,以对应的目标物体粗略范围图作为标签,训练一个卷积神经网络,收敛后作为直接判别模型;S5、将所述主干网络和所述直接判别模型级联,形成图像目标定位模型;未标注图像输入目标定位模型中,并对输出的二值化目标物体范围图进行上采样,使其恢复至与未标注图像相同大小,从而实现未标注图像中的目标位置定位。
全文数据:
权利要求:
百度查询: 浙江大学 一种基于Transformer特征聚类的缺省位置标签下图像目标定位方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。