买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种舞台环境下的移动智能体动态路径规划方法,属于智能机器人路径规划技术领域;首先通过构建全局地图获取移动智能体周围的障碍物信息,将障碍物分类成动态障碍物和静态障碍物,然后建立局部地图通过LSTM网络编码动态障碍物信息,通过社会注意力机制计算每个动态障碍物的重要性来实现更好的避障。通过构建新的奖励函数来应对动静态障碍物的不同躲避情况,从而实现在舞台复杂环境下的移动智能体的路径规划问题。提出新的经验池更新方法提高网络训练的收敛速度,同时对本发明所提的方法进行仿真实验,证实该算法的优越性,具有很强的实用价值。
主权项:1.一种舞台环境下的移动智能体动态路径规划方法,其特征在于,包括以下步骤:1基于gym库建立移动智能体和动静态障碍物的仿真环境模型;2设计马尔可夫决策过程,马尔可夫决策过程通过五元组表示S,A,P,R,γ,设计状态空间S、动作空间A、P表示为状态转移函数、R表示为奖励函数和衰减因子γ;设定状态空间S,其中动态障碍物的状态为SD=[Px,Py,Vx,Vy,r,Vpref]、静态障碍物的状态为SS=[Px,Py,r]、移动智能体的状态为ST=[Px,Py,Gx,Gy,Vx,Vy,θ,r,Vpref]、联合状态ut=[ST,SS,SD];其中Px,Py为移动智能体和动静态障碍物的当前位置,Gx,Gy为所设定的目标点的位置,θ为移动智能体的航向角,r为移动智能体和动静态障碍物的半径大小,Vpref为移动智能体的首选速度,Vx,Vy为移动智能体和动态障碍物的移动速度;动作空间A为线速度和角速度,为了符合动力学约束,角速度分成18等分在[-π4,π4]区间内,线速度按照指数函数x取1,2,3,4,5可获得5个变化平滑的线速度;动作空间共有90种动作组合;P表示为状态转移函数通过移动智能体在仿真环境下的实际交互来转移状态;R表示为奖励函数设置为: 其中Gx,y是目标点的位置信息,Px,y是移动智能体的当前位置信息,ds是移动智能体和静态障碍物之间的距离,dd是移动智能体和动态障碍物之间的距离;3设计神经网络结构;4使用最佳互惠碰撞避免算法ORCA,通过模仿学习预训练来初始化网络参数;模仿学习结束之后然后通过移动智能体在仿真环境下的实际交互进行训练来优化网络参数;5通过自适应时刻估计方法Adam训练神经网络得到最优值函数: 6通过最大化累计回报来设定最优策略: 其中,ut表示当前移动智能体和障碍物的联合状态,at表示动作空间的集合,γ表示衰减因子,Δt表示两个动作之间的时间间隔,Vpref表示移动智能体的首选速度,V*表示为最优值函数,P表示为状态转移函数,R表示为奖励函数;表示下一时刻的联合状态;7根据最优策略来选择当前时刻的动作at直到移动智能体到达目标。
全文数据:
权利要求:
百度查询: 浙江工业大学 一种舞台环境下的移动智能体动态路径规划方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。