买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:桂林电子科技大学
摘要:本发明公开了一种基于Fogdet‑Net的雾天小样本目标检测方法,所述方法包括如下步骤:1利用大气散射模型和公开数据集合成雾天数据集,然后得到base类与novel类的平衡训练集;2构造DDMSFE模块对输入的雾天图像进行特征增强;3构造PA‑FSOD模块对雾天图像进行检测框预测与分类,4在base类数据集进行目标检测训练并测试检测效果;5基于base类和novel类平衡训练集进行小样本新类物体目标检测Fine‑tuning。这种方法能够不受雾天环境下拍摄的影响,对于产生的雾天图像仍然可以进行很好地识别检测出图像中的目标对象,并且使用Fine‑tuning快速泛化到新的检测类别上。
主权项:1.一种基于雾天图像目标检测网络FoggyimageobjectDetectionNet,Fogdet-Net的雾天小样本目标检测方法,其特征在于,包括如下步骤:1本文只用的是PascalVOC2007数据集,该数据集是计算机视觉任务中常用的一个大型标准化数据集,主要用于图像识别、目标检测、语义分割等任务,VOC2007数据集包含9963张标注过的图片,数据集共包含20个类别,涉及人、动物如猫、狗、牛等、交通工具如车、飞机、船等和室内物品如椅子、桌子、电视等等。将该数据集进行处理和划分得到base类与小样本目标novel类,过程为:1-1将VOC数据集中的所有正常环境图片利用大气散射模型合成对应的雾图像,然后将所有雾天图片进行预处理,使图像缩放到统一的长×宽为544×544;1-2PascalVOC2007数据集中包含9963张正常环境的图片,包含20个类别。首先选取其中15个类为base类,base类包括aeroplane、bicycle、bird、boat、bottle、bus、car、cat、chair、cow、diningtable、dog、horse、motorbike、person,其余5个类为novel类,novel类包括pottedplant、sheep、sofa、train、tvmonitor,将base类以8:2的比例划分成两部分,其中80%为训练集、20%为测试集,训练集共9760张图片,测试集共2440张图片,共有12200张图片,base类结合novel类各选5张图片,构建base类和novel类的平衡训练集共100张图片;2构造检测驱动的多尺度特征增强模块Detection-DrivenMulti-ScaleFeatureEnhancementModule,DDMSFEM中,如所图2示,对输入进的雾天图像进行特征增强:过程包括:2-1对输入的雾天图片构造多尺度特征,过程包括:将输入进一个7×7卷积层提取特征图,输出特征图的尺寸3×136×136,记为Im,再将特征图Im输入进1个3×3卷积层进行特征提取,输出特征图的尺寸为3×68×68;记为Is,最后再将雾天图片转换为两个尺寸为3×544×544的特征图,分别记为Io和Il;2-2设计并训练细粒度特征增强模块Fine-GrainfeatureEnhancementModule,FGEM,如所图4示,对大尺度特征图进行特征增强,恢复特征图的细节特征,提高了模型的表达能力:过程包括:将步骤2-1得到的特征图Is作为FGE模块的输入,FGE模块设有3组卷积层和3个池化层,将特征图Is输入进一个16×3×3的卷积层进行编码,输出特征图经过LeakyReLU层激活,该特征图记为C1,将C1输入到三个大小分别为3×3、9×9、13×13的池化层中,分别输出特征图记为C2、C3、C4,然后将C1、C2、C3、C4进行通道维度上的拼接,输出特征图记为C5,C5输入到一个16×3×3的卷积层和3×3×3的卷积层中进行解码,经过两个卷积层的特征信息同时经过两次LeakyReLU层激活,输出的特征图记为C6,然后将C6和Is进行逐元素相加,该特征信息经过ReLU层激活,输出的特征图记为Fs;FGE模块最终输出的特征图Fs的尺寸为3×68×68;2-3设计并训练跨尺度注意力模块CrossScaleAttentionModule,CSAM,如图5所示,用于对原始特征图进行加权,突出重要特征通道,抑制不重要的特征通道,从而抑制雾气带来的噪声干扰。同时,间接地引导了不同尺度特征图的融合过程。过程包括:将步骤2-1、2-2得到的特征图Is和Fs作为CSA模块的输入,CSA模块由一个ChannelAttention模块、两个卷积层和一个自适应平均池化层组成;ChannelAttention模块由一个1×1卷积层、一个BatchNormalization层和一个Sigmoid层组成,特征图Is和Fs在通道维度上进行拼接,记为C7,C7输入进一个64×3×3的卷积层中进行编码,输出特征图记为C8,C8输入进自适应平均池化层进行下采样,输出特征图记为C9,C9输入进ChannelAttention模块中,输出特征图记为C10,将C9和C10进行逐元素的相乘,输出特征图记为C11,C11输入到一个3×3×3的卷积层进行解码,输出特征图记为C12,尺寸为3×68×68;2-4设计并训练全局特征增强模块GlobalfeatureEnhancementModule,GEM,如图6所示,对小尺度特征图进行细节增强,通过融合下采样后的低分辨率特征图包含更多语义信息和原始高分辨率特征图,可以有效地补充和增强细节信息,帮助模型识别目标的整体结构,同时有助于精确定位目标:过程包括:将步骤2-3得到的特征图C12进行2倍上采样,记为C13,将C13和步骤2-1得到的特征图Im作为第一个GE模块的输入,GE模块设有四个卷积层和一个池化层,将C13输入进1个3×3卷积层进行通道维度的扩展,记为C14,将特征图Im输入进1个3×3卷积层进行通道维度的扩展,记为C15,将C14和C15进行逐元素相乘,记为C16,将C13先进行2倍上采样,再输入进1个3×3卷积层进行通道维度的扩展,记为C17,将C16输入进1个2×2的最大池化层进行2倍下采样,记为C18,将C17和C18进行逐元素相加,记为C19,将C19输入进1个3×3的卷积层进行通道维度的压缩,记为C20,将C20和Im进行逐元素的相加,记为Fm;将步骤2-4得到的特征图C13进行4倍上采样,记为C21,将C21和步骤2-3得到的特征图Il作为第二个GE模块的输入,执行步骤2-4相同的操作,输出特征图记为Fl;步骤2-4得到的特征图Fm、Fl的尺寸分别为:3×544×544,3×136×136;2-5将步骤2-1、2-2、2-4得到的特征图Io、Fs、Fl、Fm进行多尺度特征融合:过程包括:将步骤2-2、2-4得到的Fs和Fl分别进行8倍上采样和4倍上采样,上采样通过双线性插值操作执行,分别记为C22和C23,然后将步骤2-3、2-4得到的特征图Io、Fl与C22、C23进行逐元素相加,整合Io、Fl、Fm、Fs以获得涵盖全局和局部特征的最终增强层次表示特征图,最后将特征图转换为图片获得最终增强后的雾图像数据集,图片的尺寸为3×544×544;3构造原型聚合小样本目标检测模块PrototypesAggregationFewShotObjectDetectionModule,PA-FSODM,如图3所示,对增强后的雾天图像进行检测框预测与分类:过程包括:3-1构造提取雾图像特征模块版本1EXtractfeatureINFOGgyimageVersion1module,ExinFogV1,如图7所示,对输入的雾天增强后的图像进行中级特征的提取:过程包括:ExinFogV1模块设有3个Stage,第一个Stage由1个7×7卷积层、BatchNormalization层、ReLU层和1个MaxPooling层组成,第二个Stage由一个CBR1模块和两个CBR2模块组成,CBR1模块由三个1×1卷积层、1个3×3卷积层、4个BatchNormalization层和3个ReLU层组成,CBR2模块由2个1×1卷积层、1个3×3卷积层、3个BatchNormalization层和3个ReLU层组成,第三个Stage由1个CBR1模块和3个CBR2模块组成;图片经过第一个Stage进行特征图尺寸的缩写和通道维度的扩展,经过第二个Stage进行特征图通道维度的扩展,保持尺寸大小不变,经过第三个Stage进行尺寸进一步压缩,通道维度扩展;ExinFogV1模块的Stage3输出特征图的尺寸为512×68×68,分别记为C24、C25;3-2构造超感知特征聚合模块Hyper-PerceptiveFeaturesAggregationModule,HPFAM,如图14所示,提取有效的特征,并且准确地区分不同的类别,更好地从支持图片中提取特征,再根据匹配结果将这些特征分配到查询特征图中,实现两种特征关系的建模。过程包括:将步骤3-1得到的特征图C24、C25作为HPFA模块的输入,HPFA模块设有PrototypesDistillaion模块和PrototypesAssignment模块,PrototypesDistillaion模块由1个ScaleCosineSimilarityAttention模块、1个可学习的嵌入层和1个卷积层组成,PrototypesAssignment模块由1个ScaleCosineSimilarityAttention和2个卷积层组成,C24输入进1个3×3卷积层进行通道维度的压缩,记为K1,嵌入层将整个支持特征空间细化为一组代表性特征,它可以过滤噪音并简化训练,输出特征图记为Q1,将C24作为V1,将K1、V1和Q1输入进ScaleCosineSimilarityAttention模块进行特征原型的提取,记为C26,另外再引入一个背景特征与C26进行批次维度的拼接,记为C27,将C27输入进1个3×3卷积层进行通道维度的压缩,记为C28,将C25输入进1个3×3卷积层进行通道维度的扩展,记为C29,将C27、C28、C29输入进ScaleCosineSimilarityAttention模块进行特征提取,记为C30,将C25、C30进行逐元素求和,得到的特征图记为C31,尺寸为3×544×544;3-3构造区域提议网络RegionProposalNetwork,RPN,如图15所示,对图像选取候选框,从特征图中提取固定大小的特征:过程包括:将步骤3-2得到的特征图C31作为RPN模块的输入,RPN模块由1个softmax层、3个卷积层组成,RPN模块先生成21600个候选框,然后将C31输入进1个3×3卷积层,然后分两路输入进两个1×1卷积层和softmax层,计算候选框包含物体的概率,筛选得到300个候选框的坐标,记为C32,然后将C32输入进ROI模块,ROI模块设有1个maxpooling层,C32经过ROI模块截取为同等大小的特征图,记为C33,尺寸为3×14×14;3-4构造提取雾图像特征模块版本2EXtractfeatureINFOGgyimageVersion2module,ExinFogV2,如图8所示,为所有分支提取高级特征,产生RoI特征和类级别原型:过程包括:将步骤3-1、3-3得到的特征图C24、C33作为ExinFogV2模块的输入,ExinFogV2模块设有一个Stage,这个Stage包含与步骤3-1一致的1个CBR1模块和两个CBR2模块,将C24、C33输入进Stage分别对图像提取Roi特征和类原型特征,分别记为C34、C35,尺寸为:3×7×7;3-5构造多源特征聚合模块Multi-SourceFeatureFusionModule,MSFFM,由下面公式1、2执行,进行特征融合,同时更好地区分不同类别的差异。过程包括:将步骤3-4得到的特征图C34、C35作为MSFF模块的输入,MSFF模块设有4个全连接层,C34、C35输入进MSFF模块后,第一个全连接层对C34、C35逐元素乘积进行线性变换和非线性激活,记为C36,第二个全连接层对C34、C35逐元素差进行线性变换和非线性激活,记为C37,第三个全连接层对C34、C35进行线性变换和非线性激活,综合考虑两个特征之间的相关性和差异性,记为C38,第四个全连接层对C34、C36、C37、C38进行线性变换,进一步融合四个特征,从而得到最终的特征表示,输出的特征图记为C39,尺寸为3×7×7,MSFF模块由公式1、2执行:f′=[F1froi⊙pcls,F2froi+pcls,F3froi-pcls,F4froi,pcls,froi]1 ⊙:逐元素乘法;F1、F2、F3:独立的全连接层,带有ReLU激活函数;Fagg:纯全连接层。3-6构造DetectionHead模块对输入的特征图进行检测框预测与分类:过程包括:将步骤3-5得到的特征图C39作为DetectionHead模块的输入,DetectionHead模块设有两个全连接层、1个RoI池化层;将步骤3-5得到的特征图C39分别经过两个全连接层进行回归预测和对建议框进行分类,得到50个检测框以及检测框对应的50个分类结果;4在base类数据集进行目标检测训练并测试检测效果:过程包括:4-1步骤3-6得到的预测框相当于一个大小为50的集合,而真实的检测框相当于另一个集合,得到的预测框集合没有与真实的检测框建立一个一一对应关系,也就是接下来需要把预测出来的50个框与真实的检测框做最佳匹配,使得损失最小;4-2模型在训练过程中的损失函数定义如公式3所示: 其中δ表示进行最佳匹配后的某种顺序,y={c,b}为预测的分类结果与检测框,为使得最佳匹配后真实分类结果与检测框,M为预测框的数量,标识只有类别不为背景时计算Lbbox使用交叉熵为损失,而Lb使用计算预测框与真实框L1范数作为损失,即y′为查询图片预测的分类结果与检测框,Lmeta同样使用交叉熵损失,即4-3首先计算50个预测框与每个真实框的IOU值作为权重,采用Kuhn-Munkres即KM算法计算出预测框与真实框的最佳匹配,真实检测框的顺序记为KM算法表示如公式4所示: 采用KM算法找到一个使得损失最小的匹配序列,然后将得到的最小损失进行反向传播进行训练;4-4对预测分数设置一个阈值,只有预测的置信度大于阈值的预测框进行输出;5基于base类和novel类平衡训练集进行小样本新类物体目标检测Fine-tuning:过程如下:5-1第一阶段根据步骤4采用大量的base类数据样本对模型进行常规目标检测训练,网络的损失由步骤4-2、4-3所述组成;5-2第二阶段是基于小样本Fine-tuning,在保持整个Detection-DrivenMulti-ScaleFeatureEnhancement模块以及PrototypesAggregationFewShotObjectDetection模块除检测头的部分的参数不变的情况下,去除模型检测头的参数,为新的类别分配随机初始化的权值,之后再在步骤1-1构建的base类和novel类平衡训练集上Fine-tuning,这个过程采用余弦相似性取代交叉熵作为损失,并且缩小学习速率。
全文数据:
权利要求:
百度查询: 桂林电子科技大学 一种基于Fogdet-Net的雾天小样本目标检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。