Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于无监督学习的鱼眼相机场景深度估计方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东南大学

摘要:本发明公开了一种基于无监督学习的鱼眼相机场景深度估计方法,该方法首先建立生成对抗网络架构,对输入的鱼眼图像进行畸变校正处理;然后建立场景深度估计网络架构,对图像进行深度特征和位姿特征的提取;接着使用场景深度图信息和相机位姿信息重构图像,设计损失函数训练模型,优化网络参数;最终使用训练好的网络进行深度估计,得到图像的场景深度图。该方法使用鱼眼相机,具有观测范围广的特点;所采用的无监督学习方法,具有训练方便、感知结果准确的特点,能够满足场景深度估计的需求。

主权项:1.一种基于无监督学习的鱼眼相机场景深度估计方法,其特征在于:首先建立生成对抗网络架构,对输入的鱼眼图像进行畸变校正处理;然后建立场景深度估计网络架构,对图像进行深度特征和位姿特征的提取;接着使用场景深度图信息和相机位姿信息重构图像,设计损失函数训练模型,优化网络参数;最终使用训练好的网络进行深度估计,得到图像的场景深度图,具体包括以下步骤:步骤一:设计生成对抗网络设计生成对抗网络对鱼眼图像进行畸变校正;生成对抗网络由两个生成器和两个判别器组成;首先,构建原始鱼眼图像X和无失真的图像数据集Y作为训练集;先将X通过生成器G转换为Y域的无失真图像,再通过生成器F重构回X域输入的原畸变图像;Y域的图像先通过生成器F转换为X域的畸变鱼眼图像,再通过生成器G重构回Y域输入的原图像;生成器G和判别器DY相关联,DY将Y和生成数据GX区分,生成器F和判别器DX相关联,DX将X和生成数据FY区分;生成器G和生成器F采用以下所述的生成网络结构,判别器DX和判别器DY采用以下所述的判别网络结构;具体包括以下子步骤:子步骤1.1:设计生成网络架构生成网络由编码器网络和解码器网络组成,编码器网络中的编码器采用下采样的方式对图像进行特征提取,解码器网络中的解码器采用上采样方式重建图像;编码器网络由输入层、三个卷积层和一个全连接层组成,输入层和全连接层之间的三层滤波器的尺寸分别为7、5、3,步长分别为2、2、4,特征映射图数目为64、128、256,全连接层的节点为256,输出一个标量;解码器网络由依次相连接的三个反卷积层和输出层组成,第一个反卷积层和输出层之间的三层滤波器尺寸分别为5、3、3,步长分别为4、2、2,特征映射图数目分别为128,64,3;先将一张256×256×3鱼眼图像作为输入张量,编码器对图像进行下采样,由卷积层对输入进行特征提取,激活函数使用Relu;解码器使用上采样的方法把特征映射为图像,使用激活函数LeakyRelu对该上采样层进行激活输出,最后输出256×256×3的图像;生成网络中特别使用了实例标准化层,在加速模型收敛的同时,也保持每个图像实例间的独立性;子步骤1.2:设计对抗网络架构判别网络采用PatchGANs结构的思想,由四个卷积层组成,第一层和最后一层中不使用实例标准化层,其余层都使用;激活函数使用LeakyRelu,输出为30×30的矩阵,用矩阵的均值作为真假判断输出;子步骤1.3:设计生成对抗网络的损失函数生成对抗网络的损失函数由三部分组成,分别是两个生成器-判别器对的损失,如式1和式2所示;以及周期循环一致损失,如式3所示;LGANG,DY=EY~dataY[logDYY]+EX~dataX[log1-DYGX]1LGANF,DX=EX~dataX[logDXX]+EY~dataY[log1-DXFY]2LcycleG,F=EX~dataX|FGX-X|+EY~dataY|GFY-Y|3其中,EX~dataX,EY~dataY均表示数学期望;综上所述,所设计的生成对抗神经网络的完整损失如式4所示,其中λc为加权因子,控制循环一致损失的权重,λc设为10;LGANG,F,DX,DY=LGANG,DY+LGANF,DX+λcLcycleG,F4步骤二:设计场景深度估计网络场景深度估计网络由深度感知模块和位姿感知模块组成;对经过畸变校正后的图像进行深度估计;具体包括以下子步骤:子步骤2.1:设计深度感知模块深度感知模块输入经过畸变校正后的目标图像It,输出该图像的场景深度图Dt,其结构由编码器和解码器组成;1编码器结构如下:卷积层1_1:使用7×7的感受野与256×256×3的输入张量做卷积,步长为2,得到维度为128×128×64的特征图F1;卷积层1_2:使用5×5的感受野与卷积层1_1输出的特征图做卷积,步长为2,得到维度为64×64×128的特征图F2;卷积层1_3:使用5×5的感受野与卷积层1_2输出的特征图做卷积,步长为2,得到维度为32×32×256的特征图F3;卷积层1_4:使用3×3的感受野与卷积层1_3输出的特征图做卷积,步长为2,得到维度为16×16×512的特征图F4;2解码器结构中,采用反卷积层,将特征图F4输入,进行上采样恢复至特征图F3尺寸的特征图F4’,然后将F3和F4’进行特征融合后生成特征图F43;再将F43作为输入,进行上采样恢复至特征图F2尺寸的特征图F3’,然后将F2和F3’进行特征融合后生成特征图F32;再将FM32作为输入,进行上采样恢复至特征图F1尺寸的特征图F2’,然后将F1和F2’进行特征融合后生成特征图F21;最后输入一层卷积层,生成场景深度图;子步骤2.2:设计位姿感知模块位姿感知模块输入经过畸变校正后的目标图像It和相邻时刻的源图像Is这两帧图像,输出源图像相对于目标图像的位姿Tt→s;其结构由七个3×3的卷积层和一个1×1的卷积层组成,前七个卷积层均使用激活函数Relu提取图像特征,然后用1×1卷积将特征图通道数置为6输出特征图,最后将特征图的维度变换生成一个六维向量,该向量即为相邻帧的相对摄相机位姿变化;子步骤2.3:重构目标图像根据上述步骤得到的场景深度图和位姿信息,重构出目标图像It';已知相机内参矩阵为K,做如式5所示的映射:ps~KTt→sDtptK-1pt5其中,pt是目标图像It中一个像素的齐次坐标,通过式5可得该像素在源图像Is上的投影坐标ps,重构图像中It'pt=Is'ps;此时得到的ps是连续值,采用双线性采样的方法计算该点的像素值,即Isps的值是通过在源图像Is上采样ps周围四个像素的双线性插值的结果;如式6所示;It'pt=Isps=∑i∈{top,bottom},j∈{left,right}ωijIspsij6其中,ωij与ps和其周围四个像素空间距离成线性比例且∑i,jωij=1;通过将目标图像It的所有像素点投影并采样填充,从而重构出目标图像It';子步骤2.4:设计场景深度估计网络的损失函数该场景深度估计网络的损失函数由两部分组成,分别是重构目标图像损失Lrec如式7所示,以及深度平滑损失Lsmooth如式8所示; 其中和分别表示纵向和横向的梯度,深度平滑损失能够保证场景深度图中,物体轮廓位置处深度变化较大,其余位置场景深度图像平滑,促进场景深度图的平滑性;综上所述,所设计的场景深度估计网络的完整损失如式9所示,其中λs为加权因子,控制深度平滑损失的权重,λs设为0.1;Ldepth=Lrec+λsLsmooth9步骤三:设计模型的损失函数并训练模型综上所述,本发明方法所设计的模型最终的损失函数如式10所示,λ控制场景深度估计网络的损失在全部损失中的权重,λ的大小为10;Lfinal=LGANG,F,DX,DY+λLdepth10使用WoodScape鱼眼图像数据集作为训练集,设置初始学习率为0.0002,训练过程中学习率自动下降,设置Adam迭代器的参数β1、β2大小分别为0.9和0.999,批量大小设置为8;使用上述损失函数进行反馈来训练模型,每个epoch之后计算训练损失和验证损失,比较每个epoch的验证损失,保存验证损失最小的模型参数;步骤四:使用训练好的网络进行深度估计将鱼眼相机获取的图像序列作为输入量送到训练好的模型中,得到图像的深度估计结果。

全文数据:

权利要求:

百度查询: 东南大学 一种基于无监督学习的鱼眼相机场景深度估计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。