首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于空间池化的轻量级ViT弱监督人群计数方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南通大学

摘要:本发明公开了一种基于空间池化的轻量级ViT弱监督人群计数方法,属于深度学习和计算机视觉技术领域,具体包括以下步骤:首先,对输入的人群图像进行预处理和伪彩色处理,增强图像的对比度和细节信息;然后,使用PoolFormer作为主干网络,提取图像的特征表示,PoolFormer利用全局池化替代自注意力机制,有效降低了模型参数和计算复杂度;最后,使用深度回归器对特征进行人群数量的回归,深度回归器增强了模型的非线性表达能力。本发明相比现有的基于ViT的弱监督人群计数方法,在保证高准确率的同时,提升了计算效率和模型大小,并且具有更好的泛化能力。

主权项:1.一种基于空间池化的轻量级ViT弱监督人群计数方法,其特征在于,包括以下步骤:步骤1:获取训练图像数据集并进行预处理,将数据集中的所有训练图像分割成不重叠的图像区域,并且将分割后的区域作为伪彩色处理的输入;步骤1-1:载入图像数据和人群数据标注对图像进行判定是否为横向,若横向则进入步骤1-3,否则进入步骤1-2;步骤1-2:计算出步骤1-1输入的纵向图像的纵向和横向缩放比例,将所述纵向图像的横纵缩放比互换并调整至指定大小,此时图像数据变为同时缩放数据标注为输入至步骤1-4;步骤1-3:计算出步骤1-1输入的横向图像的纵向和横向缩放比例,将所述横向图像的横纵缩放比互换并调整至指定大小,此时图像数据变为同时缩放数据标注为输入至步骤1-4;步骤1-4:将步骤1-2和步骤1-3的图像路径进行判断,若为训练数据则将及一起进行切割,均匀切割为P块并对其编码为图像块标注其中j和k分别为图像的横向和纵向的相对位置编码,输出到新的文件夹,否则直接输出到新文件夹,进入步骤1-5;步骤1-5:读取步骤1-4生成新文件夹的地址,制作npy文件,将裁切后的和一一对应;步骤2:对步骤1中分割后的图像区域进行伪彩色处理后,使用位置编码对图像区域进行平铺处理;步骤2-1:首先对进行伪彩色处理,对输入图像进行判定其色彩模式,若为灰度图或者黑白,则将图像的色彩通道扩充为3后进入步骤2-2,否则直接进入步骤2-2;步骤2-2:对图像的每个切块进行平铺,进入补丁嵌入,将图像分割成小块并将它们嵌入到指定维度的向量空间,进入步骤2-3;其中,补丁嵌入过程如公式1所示: 其中pos是块在图中的位置,i是补丁嵌入的位置,dmodel是补丁嵌入的长度,变化后的其中N为图像数量,C为通道数量;步骤2-3:将每个块的位置进行编码后叠加到块上,得到转换后的图像块PEpos,2i和PEpos,2i+1,分别表示偶数块2i和奇数块2i+1,合并为补丁嵌入结果X;步骤3:从平铺后的数据中选取N张人群图像以及位置编码一起输入到ViT架构改进的PoolFormer网络,利用PoolFormer网络提取输入图像的特征;步骤3-1:对于步骤2中输入的块和位置编码进行空间池化操作,完成块混合,将X变化为块混合结果Y,进入步骤3-2;步骤3-2:对Y中每个块使用非线性激活的双层MLP混合,MLP包含两个全连接层,一个激活层,和两个随机失活层,混合完成后Y变化为结果Z,进入步骤3-3;步骤3-3:重复执行步骤3-1至步骤3-2,当混合次数达到一定值后将提取完的特征作为输入,进入步骤3-4;步骤3-4:对步骤3-3的输出进行全局平均池化,然后通过一个线性分类器,输出一个特定维的向量;步骤4:将提取的特征输入深度回归器中,预测人群数量,得到LCTrans-CC模型;采用深度回归器来对步骤3的输出做回归预测,更换激活函数为LeakyReLU深度回归器的计算过程用公式5表示:Pre=W5LeakyReLUW4LeakyReLUW3Z+b1+b2+b35其中Pre为人群数量的预测值,Z为步骤3的输出,LeakyReLU·表示整流激活函数,是三个全连接层的参数设置,W3、W4、W5表示表示池化操作中的池化大小,b1、b2、b3为池化结果的维度;步骤5:设定迭代次数M及最终轮次,使用L1损失来衡量预测值与真实值之间的差距,清空优化器的梯度缓存,进行反向传播并更新LCTrans-CC模型参数;步骤6:检查训练图像数据集中所有图像是否都已经全部通过LCTrans-CC模型,若没有则返回步骤3,否则进入步骤7;步骤7:若当前轮次大于M且小于最终轮次,且为一定倍数时进入测试流程,若等于最终轮次,输出最优权重文件,得到训练完成的LCTrans-CC模型,否则返回步骤3;步骤8:利用训练好的LCTrans-CC模型进行人群数量预测。

全文数据:

权利要求:

百度查询: 南通大学 一种基于空间池化的轻量级ViT弱监督人群计数方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。