首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于WMSRL模型的机器人避障方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京航空航天大学

摘要:本发明公开了一种基于WMSRL模型的机器人避障方法,WMSRL模型运行在机器人运动协调控制模块中。所述WMSRL模型包括有两部分内容,一部分是在机器人安全探索过程中采用安全强化学习手段,另一部分是应用改进的世界模型进行机器人位姿信息的策略学习。经本发明避障方法处理后的机器人动作轨迹会在世界模型中模拟执行,从而预测机器人每个时刻状态对应的奖励、代价、奖励回报值和代价回报值。本发明采用无模型的安全强化学习方法与改进的世界模型相结合,这种结合旨在提高对位姿信息利用率,从而更快地促进可行域内的策略收敛,并通过在世界模型中使用在线规划以实现训练和探索过程中代价的最小化。

主权项:1.一种基于WMSRL模型的机器人避障方法,是在机器人运动协调控制模块中增加了WMSRL模型;其特征在于机器人避障包括有下列步骤:步骤一,机器人运动轨迹展开和奖励值估计、代价值估计;在WMSRL模型中设置当前时刻下的状态转移概率函数和奖励函数; 表示在采取动作后,从当前状态转移到下一状态的转移概率; 表示在当前状态执行动作并转移到下一状态时获得的奖励; 表示状态空间;令状态空间中任意一状态记为,初始状态记为; 表示动作空间;令动作空间中任意一动作记为; 表示状态转移概率标志符; 表示奖励集标志符; 表示代价集,且,其中是代价函数,是代价阈值,下角标表示代价阈值标识号,表示代价阈值的总个数;令代价集中任意一代价记为; 是初始状态分布,且; 是折扣因子,且; 是机器人运动的当前时刻; 是机器人运动的前一时刻; 是机器人运动的后一时刻;使用表示状态转移概率矩阵;所述中任意一元素用状态表征为,且; 表示稳态策略下的概率标志符; 是需要学习的网络参数; 表示实数空间,上角标表示维数; 表示矩阵的状态元素; 表示在稳态策略下的采取动作后,从当前状态转移到下一状态的状态转移概率;状态转移概率矩阵中任意一元素是通过执行稳态策略从当前状态转移到下一状态的一步状态转移概率;当所有元素完成一步状态转移后,最后,将作为在稳态策略下从初始状态开始的马尔可夫链的稳态状态分布,然而将作为在稳态策略下初始分布上的折扣状态访问分布; 表示在稳态策略下马尔可夫链的稳态状态; 表示当前时刻下的折扣因子; 表示在稳态策略下当前状态的转移概率; 是初始状态分布,且; 表示在稳态策略下初始分布上的折扣状态;其中,无限时间折扣奖励函数定义为: ; 表示奖励函数; 表示期望值; 表示当前时刻下的折扣因子; 表示在状态执行动作并转移到下一状态时获得的奖励; 是初始状态分布,且; 表示稳态策略下的概率标志;其中,无限时间折扣代价函数定义为: ;下角标表示代价阈值标识号; 表示在状态执行动作并转移到下一状态时获得的折扣代价;定义可行策略集合为: ; 是代价阈值;其中,约束马尔可夫模型CMDP的目标是在中搜索最优策略为: ; 表示稳态策略下的概率标志; 表示可行策略集合; 表示奖励函数;修正机器人运动避障过程的状态转移概率函数,将基于机器人世界模型的安全强化学习问题定义如下: ; ; ; 表示稳态策略下的概率标志; 表示所有稳态策略的集合,且; 表示安全强化学习模型中奖励函数; 表示安全强化学习模型中代价函数; 表示指定的一个避障安全约束阈值; 表示在状态执行动作并转移到下一状态时获得的奖励; 表示初始状态; 是初始状态分布,且; 是一个由参数化的世界模型; 表示指定的一个代价函数;安全规划算法OSRP的设计为:在仅依赖视觉的安全任务中将模型规划与安全约束相结合;SR-MPC算法采用了约束交叉熵方法CCEM进行规划,并使用强化学习模型对、、和分别进行预测;此外,还采用了奖励估值和代价估值以及奖励驱动的策略网络π_θ来指导规划过程; 表示预测状态序列; 表示预测动力学状态; 表示预测奖励值; 表示预测代价值;首先,初始化在步长长度为的时间范围内每个动作的独立参数,即动作参数,其中;接下来,使用世界模型独立地采样条轨迹,并估计它们在规划视野之外的无限时间折扣奖励值和无限时间折扣代价值,这个估计是通过引入基于自举的returns来实现的: ; ; 表示当前状态; 表示当前状态的奖励值returns;上角标是returns的值; 表示下一状态的奖励值returns; 表示规划步长; 表示当前状态的预测奖励值; 是折扣因子,且; 表示下一状态的估计奖励回报值; 表示到第步状态的估计奖励回报值;使用代价模型的预测,在给定状态的情况下,来评估步之内的总代价: ; 表示规划步长; 表示当前时刻下的折扣因子; 表示序列模型; 表示当前状态的预测代价值; 表示观测编码器; 表示正态分布; 表示单位矩阵; 是动作均值;上角标表示迭代总次数,迭代次数; 表示前一次迭代的动作均值; 表示前一次迭代的动作方差;使用所有轨迹的代价值作为的近似估计,其中是回合长度;同时,把作为评估轨迹安全性的标准;步骤二,安全轨迹的奖励值和代价值之间的权衡;奖励值和代价值之间的权衡通过以下方式实现:在计算了所有轨迹的代价值之后,将安全轨迹的数量表示为;如果低于期望的安全轨迹数量,则表明在当前状态下找到安全轨迹很困难;因此,优先考虑安全性变得至关重要,而的值成为排序标准,记为,而整个采样的机器人动作轨迹集合则成为候选动作集;相反,如果,则说明满足安全约束的轨迹相对较容易找到;因此,奖励值被用作排序标准,而安全动作轨迹内的动作被选择为候选动作;从候选动作集中,选择出排序标准对应的最大值,并以最大值对应的动作序列作为精英动作,依据在第次迭代中获得第一参数和第二参数: ; ; 表示预定义的精英动作数量; 表示任意一个预定义的精英动作;在达到预定的迭代次数后,机器人运动规划过程结束;在每个决策机器人运动的当前时刻规划出的动作轨迹的第一个动作的均值将被作为动作在真实环境中被执行;步骤三,基于拉格朗日方法的机器人运动轨迹安全在线规划;当机器人避障过程中需要的危险检测视野超过规划视野时,在复杂的仅依靠视觉的任务中,规划过程可能无法确保零代价违规;为了解决这个问题,利用代价批判者来估计规划过程后期的预期代价;为了充分利用代价批判者的潜力,将PID拉格朗日方法集成到世界模型规划框架中,从而得到OSRP-Lag算法,将步骤二中满足时的排序标准调整为,其中是拉格朗日乘子;这意味着当机器人运动规划过程中存在许多安全轨迹时,LAG-MPC算法将根据机器人历史的约束违规情况动态调整拉格朗日乘子,在安全探索时持续保持谨慎;步骤四,构建机器人运动轨迹的世界模型的组成部分;改进的世界模型用于对来自步骤三中的机器人与环境交互的历史数据进行训练;这些数据包括观测、动作、奖励、代价和回合继续标志符,时间长度为,表示为; 表示当前状态; 表示当前动作; 表示下一状态; 表示下一奖励; 表示下一代价; 表示下一时刻回合继续标志符;改进的世界模型包括有序列模型记为、观测编码器记为、动力学模型记为、奖励解码器记为、代价解码器记为、回合继续标志符解码器记为和观测解码器记为; 表示观测编码器预测的后验分布; 表示动力学模型预测的先验分布; 表示序列模型预测的隐藏状态; 表示前一个动作; 表示在环境中实际接受到的观测状态; 表示当前奖励; 表示当前代价; 表示当前回合继续标志符; 采用门控循环单元(GRU);对于视觉输入,使用卷积神经网络(CNN)作为观测编码器和观测解码器,而对于低维输入,则使用多层感知器(MLP);奖励、代价、回合继续标志符解码器和动力学模型使用MLP实现;这个世界模型可以理解为一个序列变分自编码器VAE,其中观测编码器的输出充当近似后验,它首先将观测编码为后验分布,即的输出,给定初始状态和,以及前一个动作、循环状态和,在世界模型训练过程中使用序列模型预测下一个循环状态;然而,在策略训练或在线规划期间,由于无法访问真实的未来观测,序列模型以自身的上一个输出作为输入而不是;动力学利用预测先验分布,即的输出;通过将和连接为模型训练状态,本发明利用它来预测奖励、代价和回合继续标志符;步骤五,计算世界模型的损失函数;改进的世界模型的所有模块都是联合优化的;损失函数由两个部分组成:KL散度损失和解码器损失;给定一个批次大小为的序列,模型可以通过最小化以下损失来进行端到端优化: ;损失函数由观测、奖励、代价和回合继续标志符解码器生成的分布与其对应标签之间的对数似然构成: ; 表示观测解码器的损失函数; 表示观测解码器的损失函数的权重系数; 表示奖励解码器的损失函数; 表示奖励解码器的损失函数的权重系数; 表示代价解码器的损失函数; 表示代价解码器的损失函数的权重系数; 表示回合继续标志符解码器的损失函数; 表示回合继续标志符解码器的损失函数的权重系数;处理视觉输入时,各个权重系数、、和都设置为1.0;然而,在低维向量输入的情况下,由于预测代价始终依赖于对观测值的准确重构,被设置为5.0;损失函数通过测量动力学预测器和观测编码器之间的KL散度来计算;主要目标是训练序列模型和动力学预测器,使用在时间之前可用的信息以生成一个先验分布,该分布与使用编码器获得的后验分布尽可能接近,这通过最小化的第二项来实现;同时,观测编码器被训练以从观测中提取相关信息,增强动力学预测器的预测能力,这通过最小化中的第一项来实现;损失函数计算方式如下: ; 表示被分布的两个元素之间的KL散度;sg表示停止梯度操作符; 为第一常数系数; 为第二常数系数;步骤六,基于演员-评论家模型的策略学习;基于演员-评论家模型的策略学习过程中,将标记为演员,标记为奖励批判者,将标记为代价批判者;使用改进的世界模型对模型训练状态进行预测,得到潜在状态;将批判者需要回归的目标值离散化,然后训练批判者网络来预测每个离散值的twohotsoftmax概率,使用以下损失函数训练奖励和代价批判者网络: ; ; ; 表示预定义的离散值的标号,使用255个离散值,,表示长度为255的离散值的数组,;twohot编码将onehot编码的概念扩展到连续值;因此,可以通过以下公式预测和恢复目标值: ;其中symexp.symexp函数是symlog的反函数;演员模型的目标函数是最大化预期奖励和动作的熵;本发明使用随机反向传播估计第一项的梯度,而第二项的梯度是通过解析计算得到的; ; 为固定的系数;演员策略使用增广拉格朗日方法进行更新,主要目标是在最大化预期奖励的同时最小化预期代价,其损失函数如下: ; ; ; 表示状态下奖励值的returns; 表示状态下代价值的returns; 表示当前梯度更新轮次; 表示当前梯度更新轮次的拉格朗日乘子; 表示当前梯度更新轮次的拉格朗日惩罚因子。

全文数据:

权利要求:

百度查询: 北京航空航天大学 基于WMSRL模型的机器人避障方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术