首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于摄像头的多任务多视图蒸馏方法 

申请/专利权人:西北工业大学

申请日:2024-03-31

公开(公告)日:2024-07-05

公开(公告)号:CN118298395A

主分类号:G06V20/56

分类号:G06V20/56;G06V20/64;G06V20/70;G06V10/25;G06V10/26;G06V10/82;G06N3/0455;G06N3/082;G06N3/09

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.23#实质审查的生效;2024.07.05#公开

摘要:本发明公开了一种基于摄像头的多任务多视图蒸馏方法,首先建立基准模型,采用基于摄像头的学生模型,教师模型为Object‑DGCNN;然后计算深度损失和重建损失,完成BEV特征的蒸馏;最后利用多任务头,进行3D目标检测和语义分割。本发明在自动驾驶数据集上实现了语义分割和3D检测任务,拓宽了模型的使用场景。

主权项:1.一种基于摄像头的多任务多视图蒸馏方法,其特征在于,包括如下步骤:步骤1:建立基准模型;采用基于摄像头的学生模型,包括带有可学习参数的SAM网络、用于摄像头向鸟瞰图转换的LSS模块、以及进行目标检测和BEV分割的独立解码头;教师模型为一个雷达点云的处理网络;步骤2:计算深度损失Ldepth和重建损失Lrec,完成BEV特征的蒸馏;步骤2-1:引入深度预测任务,使用从激光雷达点云中反投影获得的离散深度地面实况DGT,并将二进制交叉熵BCE损失作为深度损失函数;Ldepth=fBCED,DGT其中,D表示预测的深度值,由图像特征经过depthnet获得;DGT表示从激光雷达点云中得到的真实深度值;利用LSS方法完成将图像特征信息向BEV特征的转化;首先对各相机的图像显性地估计像平面下采样后特征点的深度分布,得到包含图像特征的维度为H×W×D×C的视锥;其中,H、W分别表示每个图像特征点结合相机内外参转换得到的车辆坐标系下的空间位置,C表示每个图像特征点的语义特征;把所有相机的视锥分配到BEV网格中,对每个栅格中的多个视锥点进行求和池化计算,形成BEV特征图;步骤2-2:选择在前景区域内进行规范蒸馏,引入软监督方法,为BEV空间中的每个真实中心坐标创建一个高斯分布: 其中,xi,yi表示每个真实中心的坐标,分别表示xi,yi的数学期望值,表示方差值;步骤2-3:确定由学生模型与教师模型生成的BEV特征;学生模型利用基于大模型SAM的BEVTransformerEncoder生成的BEV特征图F2D;为了在教师和学生之间对齐特征表示,使用教师模型的TransformerEncoder输出的相同BEV特征F3D;引入重建损失Lrec在训练深度的同时训练特征提取; 其中,H和W分别表示蒸馏特征图的宽度和高度,‖·‖2是L2范数;表示教师模型中三维点云转化的BEV特征向量,表示学生模型中摄像头图像转化的BEV特征向量;步骤2-4:整体损失表示为:L=Ldepth+αLred其中,α表示平衡损失项;步骤3:利用多任务头,进行3D目标检测和语义分割。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于摄像头的多任务多视图蒸馏方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。