首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于视觉大模型语义引导的RGB-T人群计数方法、设备及介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京大学

摘要:基于视觉大模型语义引导的RGB‑T人群计数方法、设备及介质,首先分别将SAM应用于RGB和热模态,使用语义作为提示来获得每个模态的语义;然后模块融合最高层的语义、模态和计数信息,并使用多头自注意机制增强特征;再将融合的特征和较低层的图像特征输入到多级解码器中,生成计数令牌和密度图;最后密度图通过回归头进行处理,得到最终的计数结果。本发明针对RGB‑T人群计数中存在误检测和漏检测的问题,利用SAM大型模型的分割优势,有效地整合了语义和模态信息,提高了计数过程的准确性和鲁棒性。

主权项:1.一种基于视觉大模型语义引导的RGB-T人群计数方法,其特征是构建一个计数网络模型用于RGB-T人群计数任务,所述计数网络模型中,首先分别将SAM应用于RGB和热模态的图像,使用语义作为提示来获得每个模态的语义图,对模态图像和语义图分别提取特征;然后由语义引导的特征融合模块融合语义特征、模态图像特征和计数标记,并使用多头自注意机制增强特征;再将融合增强的特征和RGB图像特征输入到多层级解码器中,生成计数令牌和密度图;最后密度图通过回归头进行处理,得到最终的计数结果;其中语义引导的特征融合模块具体为:1将从两种模态的图像提取的最高层特征与从语义图提取的最高层特征分别进行合并,得到RGB的图像语义融合特征F'rgb,以及热模态的图像语义融合特征F't;2沿着通道维度将RGB模态的图像语义融合特征、热模态的图像语义融合特征以及可学习的计数标记进行拼接,形成初始融合特征Ff:Ff=Concat[F′rgb,F′t,tokencount]其中,Concat[·]表示沿通道维度的特征拼接,tokencount为计数标记,是一个初始值为零的张量,大小为1×1,通道数与F'rgb和F't相同;3将初始融合特征输入到一个多头自注意力模块中,得到注意力表示Af;4在多头自注意力的输出之后,通过残差连接将其添加回初始融合特征,然后,将其通过一个MLP层,并再次通过另一个残差连接添加回初始融合特征,得到最终的融合增强的特征F'f:

全文数据:

权利要求:

百度查询: 南京大学 基于视觉大模型语义引导的RGB-T人群计数方法、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。