买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西北农林科技大学
摘要:本发明公开了一种基于语义信息引导扩散模型的自主导航建图系统及方法,方法包括:基于语义先验的预测模块将度量地图作为输入,通过对空间布局的预测得到新的度量地图,该度量地图作为机器人观测的一部分;基于扩散模型的全局策略模块根据机器人实时观测生成长期目标点,引导机器人对未知环境进行探索,利用机器人前往目标点收集的观测数据训练全局策略网络并更新其网络参数,直至策略收敛;收敛后的策略在机器人观测的引导下,首先基于高斯过程产生一个初始目标点坐标,然后通过不断去除噪声生成当前的探索目标点。本发明的方法能够提高机器人探索效率,同时使机器人具备适应不同环境实时自主建图的能力,提供具有高效且泛化能力的主动探索策略。
主权项:1.一种基于语义信息引导扩散模型的自主导航建图方法,该方法通过全局策略生成的机器人探索的目标点机器人规划器和局部策略将根据目标点生成具体的执行动作,并通过建图模块更新地图信息mt+1,其特征在于,该方法还包含:S100基于语义先验的预测模块将建图模块所得到的度量地图Mt作为输入,通过捕捉度量地图Mt中不同类别物体的结构特征,进行空间布局预测,所述类别总数为C,预测得到新的度量地图Mt′,将新的度量地图Mt′进行地图裁剪和下采样处理获得当前地图信息mt,该当前地图信息mt用于后续的探索决策过程;其中所述语义先验是基于语义信息的预先知识,通过对环境中物体及其结构特征的理解形成,度量地图中的类别标签是度量地图中语义信息的具体表示,度量地图中的对象语义信息将地图中存在的每一种物体视作度量地图中的一个类别,而空间语义信息则将度量地图分为自由区域和占用区域类别;S200当前地图信息mt、当前机器人的位姿和上一时刻的长期目标点at-1构成机器人观测数据ot,基于扩散模型的全局策略模块根据观测数据ot,从一个噪声样本xT~N0,I通过去除噪声,经过I步的去噪得到一个指导机器人探索的目标占点该目标点是机器人在t时刻执行的动作值,即t时刻的最优决策,由机器人当前时刻的观测数据ot、需要探索的目标点即时奖励rt、下一时刻观测数据ot+1共同构成一个机器人探索的经验当机器人探索经验池中经验数量到达W时,开始使用所述经验对所述全局策略模块中的网络参数更新,直至策略收敛,当策略收敛时获得一个策略π*,根据该策略所述全局策略模块在机器人当前观测数据的引导下首先基于高斯过程产生一个初始的目标点,然后经过I步去噪,得到下一步需要探索的目标点,不断驱动机器人在未知的环境中进行探索并完成地图构建;在步骤S100中,所述预测模块采用语义分割网络Unet网络,将任务中的类内上下文和类间上下文建模为一种先验信息,并由真实标签监督获得的类别注意力图显式地反映出环境中各个位置所属类别的分布情况,类别注意力图对Unet网络的编码器编码得到的底层特征进行类内特征精细化操作,对这些经过精细化的特征执行了类内和类间相似度优化,增强不同类别之间的差异性;所述预测模块的总损失函数,为:L=λaLmain+λbLattention+λcLinter+λdLintra4式4中,Lattention、Linter、Lintra分别代表类别注意力图损失函数、类间区分度损失函数、类内一致性损失函数;Lmain用于评估模型输出与真实标签之间的一致性;每个λ系数代表一个权重因子; 式5中,C表示类别的总数;表示预测值中第k个像素点属于类别c的概率;mk,c表示真实值中第k个像素点属于类别c的概率;∈表示一个很小的数,设置为0.000001~0.00001,防止分母为0;在步骤S200中,将机器人在室内未知环境下的主动探索过程定义为一个由元组S,Ω,A,R组成的部分可观测的马尔科夫决策过程,S表示状态空间;Ω表示观测空间,即机器人做决策时所能感知到的信息;A表示动作空间;R表示奖励函数;对状态空间、观测空间、动作空间和奖励函数进行分析,并将去噪扩散概率模型集成到基于软行动者-评论家的主动探索策略框架中,设计DiffSAC算法,在DiffSAC算法中用编码器将ot映射为一个低维的特征向量fot,fot能有效编码了当前机器人的观测信息,将编码fot作为扩散模型的条件输入,采用扩散模型的逆向过程,从高斯噪声状态出发将机器人的观测作为扩散模型中每一步去噪条件,用于逐步精细化生成探索动作;在步骤S200中,所述DiffSAC算法的架构包含:一个动作生成网络AGN、一个目标动作生成网络TAGN、两个动作评价网络SCN1和SCN2,以及两个目标动作评价网络TSCN1和TSCN2;所述DiffSAC算法的AGN网络则通过学习最大化动作的Q值得期望来改进策略,表示为: 式4-8中,πθfot表示AGN网络的策略,代表在观测数据ot下去噪I步后的动作分布;通过最大化式4-8鼓励当前策略πθ向着Q值较高的动作梯度方向进行更新;在AGN网络中引入了动作熵正则化项,所述AGN网络的目标表示为: 式4-9中,Hπθfot表示动作熵正则化项;α表示温度系数,用于控制熵的强度;所述AGN网络参数θ的梯度表示为: 式4-9中,Be是第e次训练时采样得到的一个mini-batch轨迹数据;θe和Φe分别代表第e次训练时使用的AGN网络参数和SCN网络参数;然后,AGN网络通过执行梯度下降进行更新,表示为: 式4-11中,ηa是AGN网络的学习率;通过公式4-11对AGN网络的参数θ不断更新,使得DiffSAC算法能够学到最大化公式4-9的最优策略参数;通过最小化TSCN网络输出值与SCN网络输出值之间的时间差分误差来对SCN网络进行改进,以使SCN网络能对AGN网络产生的动作进行有效评估,表示为: 式4-13中,表示输出对应动作at的Q估计值;γ代表折扣因子,取值范围为[0,1];dt+1代表下一时刻是否终止。
全文数据:
权利要求:
百度查询: 西北农林科技大学 基于语义信息引导扩散模型的自主导航建图系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。