基于强化学习的机械臂避障路径规划方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国矿业大学

摘要：本发明属于机械臂路径规划领域，具体涉及基于强化学习的机械臂避障路径规划方法及系统，方法包括根据初始状态建立机械臂DH模型，输入机械臂运动起始位置、障碍物位置以及目标位置；基于强化学习，进行机械臂末端的路径规划，融入改进RRT*算法，提高自主避障效率；融入3‑5‑3多项式插值算法进行各关节轨迹规划，设置机械臂各关节速度、加速度、加加速度约束，并对海鸥算法进行改进，将路径规划所得的离散路径点进行拟合以得到平滑、快速的关节轨迹。本发明能够解决当同时要求冲击最优和时间最优时，现有强化学习算法训练的时间成本高以及自主避障的成功率低的问题。

主权项：1.基于强化学习的机械臂避障路径规划方法，其特征在于，包括如下步骤：根据机械臂的初始状态使用DH方法建立机械臂DH模型，以三维坐标的形式输入机械臂的起始位置、障碍物位置以及目标位置，采用AABB包围盒法对障碍物进行简化，同时将机械臂的圆柱体连杆模型扩大预定半径，结合机械臂的圆柱体连杆模型进行碰撞检测的优化；基于Q学习对机械臂末端进行路径规划，定义机械臂末端的状态和动作集，通过建立奖励函数，确保机械臂在避障的同时有效的向目标点移动，还通过策略进行动作选择，同时引入三重避障策略；采用3-5-3多项式插值算法对所述机械臂各关节的轨迹进行规划，设置速度，加速度和加加速度约束，将路径规划所得的离散路径点进行拟合得到平滑、快速的关节轨迹，对海鸥算法进行改进，并利用改进的海鸥算法对所述关节轨迹进行优化；其中，基于Q学习对机械臂末端进行路径规划，包括如下步骤：将所述机械臂末端的坐标状态S设置为：，其中，x、y、z分别是所述机械臂末端在空间中的坐标，n为所述机械臂末端在空间中移动的次数，所述机械臂末端在每个坐标轴的正方向或负方向移动一个步长，定义移动动作集A如下：，其中,分别表示所述机械臂末端在X、Y、Z轴方向的移动步长；基于所述机械臂末端所述障碍物之间的第一实时距离和所述机械臂末端和所述目标点的第二实时距离，建立奖励函数引导所述机械臂远离所述障碍物并向所述目标点移动；在所述机械臂移动的过程中，还利用所述机械臂末端到所述目标点的欧氏距离来更新所述奖励函数以加快学习速度；在Q学习中，根据下一状态,选择下一状态下可以得到的最大值乘以折扣系数加上奖励值作为最新的Q值，定义更新Q值的规则为：，其中，为Q学习的学习率，为折扣系数，为下一状态采取动作可获得的最大Q值，表示下一状态可采取的动作，是指下一状态，A表示当前状态采取的动作，S是指当前状态，是指根据所述奖励函数计算的奖励值；基于所述Q值和所述奖励函数，采用动作选择策略选择下一个动作，所述动作选择策略通过设定贪婪阈值确定每个动作的选取方式，所述的取值范围为0到1；在陷入局部最优时无法通过环境奖励找到逃脱路径的情况下，引入三重避障策略，根据所述机械臂末端和所述障碍物的实时距离，动态调整Q学习算法的贪婪程度、步长大小并利用RRT*算法避障获取逃脱路径，之后利用Q学习继续探索最佳路径；通过Q学习找到无碰撞路径后，由逆动力学得到各关节的路径并生成轨迹，基于所述轨迹上的每个点对所述机械臂的连杆进行碰撞检测，若无碰撞，按照角度变化的大小从小到大对所有组运动学逆解进行排序，选择角度变化最小的一组运动学逆解，若出现碰撞，选择下一组运动学逆解进行碰撞检测直至无碰撞，若所有组的所述运动学逆解均会碰撞，将对应的点视为障碍物，重新进行路径规划；其中，所述奖励函数的奖励规则为：用第一公式计算所述机械臂末端与所述障碍物的第一实时距离，所述第一公式为：，其中，分别为所述机械臂末端在第i时刻的坐标位置，分别为所述障碍物的中心点坐标位置，用第二公式表示所述奖励函数，所述第二公式为：，其中，为所述机械臂末端与所述障碍物之间的第一实时距离，为所述机械臂末端和障碍物之间的安全距离，为所述机械臂末端在第i时刻的坐标位置，为所述目标点的坐标位置，若所述机械臂末端到达所述目标点，也就是时，设置奖励，若所述第一实时距离小于等于所述安全距离，设置惩罚，若所述第一实时距离大于所述安全距离，视为空跑，设置惩罚；其中，利用所述机械臂末端到所述目标点的欧氏距离来更新所述奖励函数以加快学习速度，包括如下步骤：用第三公式计算所述机械臂末端的起始点到目标点的起始距离，所述第三公式为：，其中，为所述机械臂起始点的坐标，用第四公式计算第i时刻所述机械臂末端到所述目标点的所述欧氏距离，所述欧氏距离也指所述第二实时距离，所述第四公式为：，其中，为所述目标点的坐标；为引导所述机械臂末端向所述目标点移动，采用更新所述奖励函数的方式，具体更新规则用第五公式表示为：，其中，为辅助学习的奖励系数，利用欧氏距离辅助学习，根据状态与目标点间的实时距离与定值线性距离的差值给予奖励，当前状态与目标越近，获得的奖励就越多，当实时距离大于初始距离时，奖励值就会变成一种惩罚，从而激励状态朝向目标点移动，提升学习效率；其中，采用动作选择策略选择下一个动作，包括如下步骤：随机生成一个0到1之间的随机数，和贪婪阈值比较，若小于等于，从所述移动动作集中随机选择一个动作执行，表示对环境的随机探索，若大于，从所述移动动作集中选择Q值最大的动作执行，表示对现有经验的利用，所述策略用第六公式表示，所述第六公式为：，用第七公式表示，所述第七公式为：，其中，k为探索次数，为实际学习次数，M为指定迭代次数；其中，所述三重避障策略，包括如下步骤：获取所述机械臂末端和所述障碍物的第一实时距离，比较所述与第一阈值、第二阈值和第三阈值的大小，若，增大贪婪阈值，若，减少所述移动步长，若，启动RRT*逃脱策略，利用RRT*算法获取逃脱路径避免碰撞动作，所述策略通过随机选择方向并沿所述方向探索一个步长p的节点，逐步构建局部随机数，在,且与所述目标点的距离更近时，停止所述RRT*逃脱策略并退出，提供一条离开所述障碍物并接近所述目标点的路径，利用Q学习继续探索最佳路径；其中，采用3-5-3多项式插值算法进行时间优化，包括如下步骤：确定关节运动的起点、中间路径点和终点的位置，根据所述机械臂的设计和性能，设定每个关节的最大速度，最大加速度和最大加加速度，对于关节i,使用3-5-3多项式插值通式描述所述关节i在三段时间内的角位置变化，所述多项式插值通式为：，其中，分别为关节i在三段时间内的关节角位置，分别为所述多项式插值通式的未知系数，t是时间变量，基于轨迹规划问题的条件推导得到未知系数和插值点的关系为：，其中，X的数学模型为：，的数学模型为：，F式的数学模型为：，其中，F为关于时间t的函数矩阵，X为插值点向量，为关节i的4个路径点，为系数向量；时间冲击最优的轨迹规划以时间和冲击作为待优化变量，并满足速度、加速度约束条件：，其中，为第j关节的最大速度，为第j关节的最大加速度，为第j关节的最大加加速度，将机械臂总体运行时间设定为：，机械臂各关节总冲击值设定为：，其中，T为总运行时间，为加加速度，为保证机械臂的实际动作速度和加速度在限定范围内，设定约定函数：，其中，分别为第i关节的实际速度和加速度，为实际速度的约束值，为加速度的约束值，为保证轨迹的平稳性，机械臂的初始速度和初始加速度均设置为0；利用权重法将多目标优化问题转化为单目标优化问题，所述权重法的数学模型为：，其中，为时间项的权重，，为系数，引入系数使时间项和冲击项的数量级一致，ft为时间项与冲击项的综合优化值。

全文数据：

权利要求：

百度查询：中国矿业大学基于强化学习的机械臂避障路径规划方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种PC构件骨架自动调节抓取装置及抓取方法

下一篇：一种盾构隧道内攀壁巡检机器人及其巡检方法

相关技术

一种PC构件骨架自动调节抓取装置及抓取方法

一种盾构隧道内攀壁巡检机器人及其巡检方法

一种可自适应角度调节装置

视频数据的帧间预测方法、装置及电子设备

一种主被动探测结合的远红外激光雷达装置及测量方法

一种复判缓存设备及复判缓存方法

装配式建筑的锁合机构

动效模板生成方法、图片动态展示方法、装置及电子设备

一种薯类种植装置及方法

尘盒组件、清洁机器人和清洁系统

FinFET堆叠栅存储器的形成方法

抑制LECT2基因表达的组合物和方法

避障相关技术

一种割草机避障装置_华能威宁风力发电有限公司_202410850222.6

一种起垄式避障株间除草机_安徽云起农林发展有限公司_202211541434.3

基于激光雷达的集群飞行器避障系统_西北工业大学_202411305551.9

一种基于响应暂态的无人驾驶汽车避障优化方法_南通大学_202411048813.8

清洁设备在避障时的控制方法和装置_深圳市元鼎智能创新有限公司_202410855021.5

一种基于机器视觉的智能避障方法及系统_天津渤海职业技术学院_202410996441.5

基于强化学习的机械臂避障路径规划方法及系统_中国矿业大学_202410823132.8

一种车辆的制动避障方法、装置及电子设备_北京赛目科技股份有限公司_202411297126.X

一种电力巡检机器人高空避障方法_国网山东省电力公司济南供电公司_202410931051.X

一种基于单塔多笼电梯智能避障控制方法_中建三局集团华南有限公司_202411160160.2

臂相关技术

机械臂的控制方法、装置及机械臂_骨圣元化机器人(深圳)有限公司_202410161450.2

一种勾臂车的勾臂挂钩_陕西力尚重工汽车专用科技有限责任公司_202420489799.4

助力搬运机械臂_青岛泰思科机电工程有限公司_202420110867.1

移动单臂吊_周春阳_202420262376.9

一种机械臂_广州视源电子科技股份有限公司_202323251345.8

一种机臂连接结构和无人机机臂装置_南昌三瑞智能科技股份有限公司_202420675487.2

撞针式抱闸装置、机械臂的关节模组以及机械臂_深圳市越疆科技股份有限公司_202411198937.4

一种具有变换功能的多臂架超强臂架系统_徐工集团工程机械股份有限公司_201810269201.X

一种茶叶采摘机械臂_武汉炜鑫煌生态农业有限公司_202420444136.0

一种控制臂转运装置_江苏艾联新能源智能装备有限公司_202323636458.X

路径相关技术

一种运输路径规划方法_贵州省质安交通工程监控检测中心有限责任公司_202011191522.6

路径更新方法及装置_中国移动通信集团广东有限公司_202311841640.0

贴边路径规划方法及装置、相关产品_北京智行者科技股份有限公司_202310407558.0

路径规划方法、装置、存储介质及电子设备_民航成都电子技术有限责任公司_202410979643.9

电动车充放电路径规划方法_合肥工业大学_202411311425.4

路径确定方法、装置、设备、介质及产品_中国重汽集团济南动力有限公司_202411102147.1

一种动态窗口局部路径规划方法_华中科技大学_202410794990.4

非直连路径的处理方法、终端及网络节点_中国移动通信有限公司研究院_202410184256.6

车辆的路径规划方法及装置、车辆_魔门塔(苏州)科技有限公司_202310426222.9

一种确定行驶路径的方法和装置_北京沃东天骏信息技术有限公司_201911052621.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于强化学习的机械臂避障路径规划方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务