买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了移动机器人导航避障的演员‑评论家稳定性强化学习方法,属于移动机器人自主导航及规避障碍物技术领域,包括以下步骤:步骤一:网络模型构造;步骤二:网络模型参数初始化;步骤三:训练价值评估网络与李雅普诺夫函数网络;步骤四:训练最小李雅普诺夫值网络;步骤五:训练导航避障策略网络;步骤六:判断导航避障策略是否收敛至稳定策略,若否,则重复步骤三、步骤四和步骤五,直到导航避障策略收敛至稳定策略,若是,得到稳定导航避障策略,通过输入移动机器人当前状态,输出移动机器人运动速度;本发明提高策略训练收敛速度以及在导航避障过程中的安全性。
主权项:1.移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于,包括以下步骤:步骤一:网络模型构造利用神经网络技术构造基于演员-评论家算法在移动机器人导航避障中的策略网络,价值评估网络和李雅普诺夫函数网络;利用神经网络技术构造策略网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据和移动机器人速度数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置和移动机器人速度数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出移动机器人的动作分布;利用神经网络技术构造价值评估网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据、移动机器人速度数据和当前时刻动作数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置、移动机器人速度数据和当前时刻动作数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出评估价值,评估价值为一维向量Q;步骤二:网络模型参数初始化随机初始化步骤一中构造的移动机器人导航避障策略网络,及价值评价网络参数,及李雅普诺夫函数网络参数,初始化策略网络训练过程中涉及到的超参数;步骤三:训练价值评估网络与李雅普诺夫函数网络构造价值评估网络与李雅普诺夫函数网络的优化目标函数,从存储空间批次随机采样对构造的目标函数进行优化求解;价值评估网络的优化目标函数构造的具体步骤为:Q价值函数用于评估当前状态和当前所采取的动作策略,记做Qπs,a,并有: 其中,Eτ~π表示为动作状态序列{s0,a0,r1,s1,a1,…}服从策略π,γ∈[0,1]是折扣系数,r为在状态s下采取动作a获得的奖励;利用递归关系,可以得到公式1-1的贝尔曼方程:Qπs,a=Es'~p·|s,a[r+γEa'~π·|s'[Qπs',a']]1-2其中,p·|s,a为状态转移概率,由公式1-2,可以构造价值评估网络优化的目标函数为: 李雅普诺夫函数网络的优化目标函数构造的具体步骤为:李雅普诺夫函数用于衡量当前状态和当前所采取的策略所获得的惩罚,记做Lπs,a,并有: 其中,c为在状态s下采取动作a获得的惩罚,利用递归关系,可以得到公式1-4的贝尔曼方程:Lπs,a=Es'~p·|s,a[c+γEa'~π·|s'[Lπs',a']]1-5由公式1-5,可以构造李雅普诺夫函数网络优化的目标函数为: 步骤四:训练最小李雅普诺夫值网络训练最小李雅普诺夫值网络,获取李雅普诺夫函数网络取得最小值的策略πm;训练获取最小李雅普诺夫函数的策略优化目标函数为:Jθm=Ls,a1-7通过优化上述目标函数,可以得到当前状态s下的最小李雅普诺夫函数值为: 步骤五:训练导航避障策略网络训练导航避障策略网络,在满足演员-评论家算法策略中的最优目标函数同时,保证满足李雅普诺夫函数下降条件;训练导航避障策略网络,在满足演员-评论家算法策略中的最优目标函数同时,需保证以下稳定性条件,即:minJθ使得Es~μ,a~π[Es'~p,a'~πLs',a'-L*s,a]≤-α3Es~μ,a~πcs,a,其中,μ为采样分布,p为状态转移分布,利用拉格朗日乘子法,得到算法的最优目标函数为:Jθ=-As,alogπs,a+λLs′,a′-L*s,a+α3c1-9其中,步骤六:判断导航避障策略是否收敛至稳定策略,若否,则重复步骤三、步骤四和步骤五,直到导航避障策略收敛至稳定策略,若是,得到稳定导航避障策略,通过输入移动机器人当前状态,输出移动机器人运动速度。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学人工智能研究院有限公司 移动机器人导航避障的演员-评论家稳定性强化学习方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。