基于视觉大模型语义引导的RGB-T人群计数方法、设备及介质

导航：龙图腾网> 最新专利技术> 基于视觉大模型语义引导的RGB-T人群计数方法、设备及介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南京大学

摘要：基于视觉大模型语义引导的RGB‑T人群计数方法、设备及介质，首先分别将SAM应用于RGB和热模态，使用语义作为提示来获得每个模态的语义；然后模块融合最高层的语义、模态和计数信息，并使用多头自注意机制增强特征；再将融合的特征和较低层的图像特征输入到多级解码器中，生成计数令牌和密度图；最后密度图通过回归头进行处理，得到最终的计数结果。本发明针对RGB‑T人群计数中存在误检测和漏检测的问题，利用SAM大型模型的分割优势，有效地整合了语义和模态信息，提高了计数过程的准确性和鲁棒性。

主权项：1.一种基于视觉大模型语义引导的RGB-T人群计数方法，其特征是构建一个计数网络模型用于RGB-T人群计数任务，所述计数网络模型中，首先分别将SAM应用于RGB和热模态的图像，使用语义作为提示来获得每个模态的语义图，对模态图像和语义图分别提取特征；然后由语义引导的特征融合模块融合语义特征、模态图像特征和计数标记，并使用多头自注意机制增强特征；再将融合增强的特征和RGB图像特征输入到多层级解码器中，生成计数令牌和密度图；最后密度图通过回归头进行处理，得到最终的计数结果；其中语义引导的特征融合模块具体为：1将从两种模态的图像提取的最高层特征与从语义图提取的最高层特征分别进行合并，得到RGB的图像语义融合特征F'rgb，以及热模态的图像语义融合特征F't；2沿着通道维度将RGB模态的图像语义融合特征、热模态的图像语义融合特征以及可学习的计数标记进行拼接，形成初始融合特征Ff：Ff＝Concat[F′rgb,F′t,tokencount]其中，Concat[·]表示沿通道维度的特征拼接，tokencount为计数标记，是一个初始值为零的张量，大小为1×1，通道数与F'rgb和F't相同；3将初始融合特征输入到一个多头自注意力模块中，得到注意力表示Af；4在多头自注意力的输出之后，通过残差连接将其添加回初始融合特征，然后，将其通过一个MLP层，并再次通过另一个残差连接添加回初始融合特征，得到最终的融合增强的特征F'f：

全文数据：

权利要求：

百度查询：南京大学基于视觉大模型语义引导的RGB-T人群计数方法、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种停车收费用防撞道闸

下一篇：一种太阳能路灯光伏组件安装结构

相关技术

一种停车收费用防撞道闸

一种太阳能路灯光伏组件安装结构

一种密封型储存罐

桩孔孔径检测装置

光纤布拉格光栅应力调节装置

一种螺旋轴固定结构

一种带有烘干功能的金属件清洗池

一种高稳定环保型印刷蛋糕套盒

一种轻卡悬置防松脱装置

一种超声弹性成像检查辅助装置

一种道路维修切割装置

一种液压动力机械用元件制造设备

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于视觉大模型语义引导的RGB-T人群计数方法、设备及介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务