买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西北工业大学
摘要:本发明提供了一种基于频率指导空间自适应的伪装目标检测方法,通过设计适配器从频域的角度提取和增强细节信息,使模型更加准确地捕捉伪装目标的精细特征。首先是频率引导的空间注意力模块,该模块通过动态调整频率分量使注意力更多地集中于伪装目标。在第一个模块的基础上又设计得到另外两个模块,即基于频率的细微差异挖掘模块和基于频率的特征增强模块,两者共同构成适配器,负责细微特征的提取和增强。本发明结合了来自视觉基础模型的通用知识和从下游COD任务中学到的特定任务知识,通过在频域空间自适应调整频率分量,来引导预训练基础模型在空间域更多地关注到伪装目标,在四个广泛采用的COD基准数据集上实现了最先进的性能。
主权项:1.一种基于频率指导空间自适应的伪装目标检测方法,其特征在于包括如下步骤:步骤1:数据集准备;下载四个伪装目标检测COD基准数据集:CHAMELEON、CAMO、COD10K和NC4K;其中,CAMO和COD10K的训练集将用于训练模型,CHAMELEON和NC4K的全部数据集、以及CAMO和COD10K的测试集将用于检测模型性能;步骤2:构建网络模型;网络模型包括适配器模型结构,适配器模型结构包括频率引导的空间注意力模块FGSAttn、基于频率的细微差异挖掘模块FBNM和基于频率的特征增强模块FBFE;所述步骤2中构建网络模型的具体构建过程如下:步骤2-1:构建频率引导的空间注意力模块;频率引导的空间注意力模块包括三个阶段:1将输入特征通过傅里叶变换从空间域转换到频域;2在频域空间对不同频谱分量进行自适应调整;3返回到空间域得到空间注意力图聚焦伪装目标的关键区域;步骤2-2:构建基于频率的细微差异挖掘模块;设计一个基于频率的细微差异挖掘模块插入到基础模型VisionTranformer的所有TransformerLayer之前,旨在挖掘前景和背景之间的微小差别;VisionTranformer为ViT;首先借用ResNet的卷积模块对输入图像的局部空间上下文进行建模,该卷积模块包括三个3×3卷积核和一个最大池化层;然后,连续应用三个序列操作,得到具有细微差异放大的多尺度特征图F1、F2和F3;其中每个序列操作为一个步幅为2的3×3卷积核以缩小特征图的规模,然后是一个FGSAttn模块从全局的角度利用频域信息自适应调整表示不同视觉属性的特征,从而有效突出纹理丰富区域中的微小差异;接下来,分别对特征图F1、F2和F3使用一个1x1卷积将特征图F1、F2和F3投影到相同的维度,经过展平操作变成一维序列后,再沿着通道维度拼接起来,即可获得包含不同尺度的来自适配器流的特征一方面作为下一个适配器模块的输入,另一方面与预训练基础模型ViT输出的特征进行交叉注意力操作,以获得吸收了任务相关知识的特征该特征将被用作ViT后续层的输入;步骤2-3:构建基于频率的特征增强模块;设计了基于频率的特征增强模块插入到ViT网络中来增强ViT流的特征,以充分利用通用知识和任务相关的知识;步骤3:损失函数;损失函数包含加权二值交叉熵损失与加权IoU损失整体的损失函数定义如下: 通过计算中心像素与其周围环境之间的差值,给每个像素分配一个不同的权值,从而使难像素得到更多的关注,和分别用于形成网络上的像素约束和全局约束;将训练集中的图像输入网络模型得到预测结果,再将预测结果与真实的像素级标签计算损失函数,通过最小化损失函数来优化模型参数直到达到最大迭代次数为止,模型训练完成后,将测试集图像输入训练好的模型即可得到先进的预测结果。
全文数据:
权利要求:
百度查询: 西北工业大学 基于频率指导空间自适应的伪装目标检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。