买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:电子科技大学
摘要:本发明致力于解决复杂背景下的人与物体交互检测难题。本发明对基于多尺度上下文聚合的多重关系复用网络进行了改进,具体技术方案包括:空间感知合并模块、人体姿态融合模块以及细粒度锚点解码。针对空间感知合并模块,它充分利用了编码后多尺度特征中包含的空间结构和层级信息,通过与内容嵌入的深度融合与对齐,确保模型能够精确捕捉不同空间层级间的关联及交互细节。针对人体姿态融合模块,本发明引入人体姿态信息作为交互意图的补充表示,使模型自适应学习并关注关键的人体关节特征而无需额外标注。针对细粒度锚点解码,细粒度锚点作为位置先验,引导解码器关注特定的兴趣区域,并直接将语义信息融入内容嵌入中,后者用于预测HOI实例。
主权项:1.一种基于细粒度锚点指导的语义信息融合网络,其特征在于包含以下步骤:步骤1:基于多尺度上下文聚合的多重关系复用网络进行了改进,在其基础上增加了空间感知合并模块、人体姿态融合模块、以及细粒度锚点解码;步骤2:在增加空间感知合并模块时,本发明在解码器模块前增加空间感知合并和任务感知合并模块,可以充分利用初始锚点、多尺度特征和查询嵌入,为不同的输入场景生成更为恰当的细粒度锚点,并对齐不同输入场景和查询嵌入之间的语义信息。其核心在于空间感知合并机制,它充分利用了编码后的多尺度特征中隐含的空间结构和层级信息,通过与内容嵌入进行深度融合和对齐,确保模型能够准确地捕捉到不同空间层级间的关联和交互细节。步骤3:在增加人体姿态融合模块时,本发明引入人体姿态信息作为HOI检测任务交互意图的表示。将人体姿势作为一种信息的补充,使模型能够在无需额外标注信息的情况下,基于给定的交互类别自适应地学习并聚焦于关键的人体关节特征。步骤4:在设计细粒度锚点解码时,本发明使用细粒度锚点充当一个位置先验,让解码器聚焦于感兴趣的区域,直接指导解码器将语义信息辅助到内容嵌入中,内容嵌入用于预测HOI实例的所有元素。步骤5:在调整损失函数时,本发明受到HOI-Trans、QPIC、CDN和QAHOI基于集合的训练过程的启发,首先使用匈牙利算法的二分匹配来将每个基本事实与其最佳匹配预测。对于后续的反向传播,在匹配的预测和匹配的基本事实之间建立损失。除此之外,也会计算中间损失,以进行更好的表示学习,也就是将相同的FFN附加到每个解码器分支来计算中间损失,该中间损失计算方式与总损失计算方式相同。步骤6:将上述模块添加到基于多尺度上下文聚合的多重关系复用网络中的对应位置,将数据集输入网络,获得输出的结果。
全文数据:
权利要求:
百度查询: 电子科技大学 一种基于细粒度锚点指导的语义信息融合网络
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。