移动机器人导航避障的演员-评论家稳定性强化学习方法

导航：龙图腾网> 最新专利技术> 移动机器人导航避障的演员-评论家稳定性强化学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了移动机器人导航避障的演员‑评论家稳定性强化学习方法，属于移动机器人自主导航及规避障碍物技术领域，包括以下步骤：步骤一：网络模型构造；步骤二：网络模型参数初始化；步骤三：训练价值评估网络与李雅普诺夫函数网络；步骤四：训练最小李雅普诺夫值网络；步骤五：训练导航避障策略网络；步骤六：判断导航避障策略是否收敛至稳定策略，若否，则重复步骤三、步骤四和步骤五，直到导航避障策略收敛至稳定策略，若是，得到稳定导航避障策略，通过输入移动机器人当前状态，输出移动机器人运动速度；本发明提高策略训练收敛速度以及在导航避障过程中的安全性。

主权项：1.移动机器人导航避障的演员-评论家稳定性强化学习方法，其特征在于，包括以下步骤：步骤一：网络模型构造利用神经网络技术构造基于演员-评论家算法在移动机器人导航避障中的策略网络，价值评估网络和李雅普诺夫函数网络；利用神经网络技术构造策略网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据和移动机器人速度数据，两个时刻激光雷达数据经一维卷积和全连接层进行降维，目标相对位置和移动机器人速度数据经全连接层进行预处理，再与降维数据合并，经全连接层组合特征并分类后输出移动机器人的动作分布；利用神经网络技术构造价值评估网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据、移动机器人速度数据和当前时刻动作数据，两个时刻激光雷达数据经一维卷积和全连接层进行降维，目标相对位置、移动机器人速度数据和当前时刻动作数据经全连接层进行预处理，再与降维数据合并，经全连接层组合特征并分类后输出评估价值，评估价值为一维向量Q；步骤二：网络模型参数初始化随机初始化步骤一中构造的移动机器人导航避障策略网络，及价值评价网络参数，及李雅普诺夫函数网络参数，初始化策略网络训练过程中涉及到的超参数；步骤三：训练价值评估网络与李雅普诺夫函数网络构造价值评估网络与李雅普诺夫函数网络的优化目标函数，从存储空间批次随机采样对构造的目标函数进行优化求解；价值评估网络的优化目标函数构造的具体步骤为：Q价值函数用于评估当前状态和当前所采取的动作策略，记做Qπs,a，并有：其中，Eτ～π表示为动作状态序列{s0,a0,r1,s1,a1,…}服从策略π，γ∈[0,1]是折扣系数，r为在状态s下采取动作a获得的奖励；利用递归关系，可以得到公式1-1的贝尔曼方程：Qπs,a＝Es'～p·|s,a[r+γEa'～π·|s'[Qπs',a']]1-2其中，p·|s,a为状态转移概率，由公式1-2，可以构造价值评估网络优化的目标函数为：李雅普诺夫函数网络的优化目标函数构造的具体步骤为：李雅普诺夫函数用于衡量当前状态和当前所采取的策略所获得的惩罚，记做Lπs,a，并有：其中，c为在状态s下采取动作a获得的惩罚，利用递归关系，可以得到公式1-4的贝尔曼方程：Lπs,a＝Es'～p·|s,a[c+γEa'～π·|s'[Lπs',a']]1-5由公式1-5，可以构造李雅普诺夫函数网络优化的目标函数为：步骤四：训练最小李雅普诺夫值网络训练最小李雅普诺夫值网络，获取李雅普诺夫函数网络取得最小值的策略πm；训练获取最小李雅普诺夫函数的策略优化目标函数为：Jθm＝Ls,a1-7通过优化上述目标函数，可以得到当前状态s下的最小李雅普诺夫函数值为：步骤五：训练导航避障策略网络训练导航避障策略网络，在满足演员-评论家算法策略中的最优目标函数同时，保证满足李雅普诺夫函数下降条件；训练导航避障策略网络，在满足演员-评论家算法策略中的最优目标函数同时，需保证以下稳定性条件，即：minJθ使得Es～μ,a～π[Es'～p,a'～πLs',a'-L*s,a]≤-α3Es～μ,a～πcs,a，其中，μ为采样分布，p为状态转移分布，利用拉格朗日乘子法，得到算法的最优目标函数为：Jθ＝-As,alogπs,a+λLs′,a′-L*s,a+α3c1-9其中，步骤六：判断导航避障策略是否收敛至稳定策略，若否，则重复步骤三、步骤四和步骤五，直到导航避障策略收敛至稳定策略，若是，得到稳定导航避障策略，通过输入移动机器人当前状态，输出移动机器人运动速度。

全文数据：

权利要求：

百度查询：哈尔滨工业大学人工智能研究院有限公司移动机器人导航避障的演员-评论家稳定性强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：微通道翅片插槽成型方法

下一篇：用于舆情热度预测的轻量集成模型系统及其训练方法

相关技术

微通道翅片插槽成型方法

用于舆情热度预测的轻量集成模型系统及其训练方法

一种基于阵列式超声的动弹模量和泊松比的自动检测方法

一种基于地形扫描的定深度型播种机及播种方法

分布式大数据的聚类方法、装置、设备、存储介质及产品

一种车身门槛结构及车身

柴油发电机并网管控半物理测试系统与方法

元宇宙空间的处理方法、装置以及计算机设备

分布式锁控制方法、装置、计算机设备及介质

一种环吊桥架模块化安装方法

一种夜间混凝土楼板标高控制方法

风电齿轮箱滑动轴承温度测量装置和系统

演员相关技术

演员试戏评估方法、装置、电子设备及存储介质_北京爱奇艺科技有限公司_202411213064.X

一种演员升降小车_信德前滩(上海)文化置业有限公司_202420232033.8

基于离散软演员-评论家算法的MEC任务卸载决策方法_吉林大学_202411140656.3

一种舞台演出用演员定位标记灯_艺声文化科技有限公司_202420443936.0

一种基于综合损失的演员评论家算法的机器人控制方法_厦门大学_202410487776.4

空中栈道表演用演员移动机构_天津舞台科学技术研究所_202420145654.2

基于数字孪生仿真的演员虚拟表演系统及其应用方法_数峦云(杭州)科技有限公司_202410417928.3

一种基于演员-评论家的二维不规则零件排样方法和系统_华中科技大学_202210592548.4

一种用于摄影机械臂拍摄用的演员提示器_天津基卡机器人技术有限公司_202322579839.2

移动机器人导航避障的演员-评论家稳定性强化学习方法_哈尔滨工业大学人工智能研究院有限公司_202210403450.X

评论家相关技术

评论数据分发方法、介质、装置和计算设备_杭州网易云音乐科技有限公司_202411053566.0

一种弹幕评论信息数据的剪辑方法及其设备_合肥墨晗信息科技有限公司_202411253521.8

一种基于结构注意力增强机制的虚假评论识别装置_电子科技大学长三角研究院(衢州)_202210304001.X

融合长文本主题关键词的评论信息智能分类方法_国网冀北电力有限公司信息通信分公司_202411225192.6

一种文本评论主题情感分析方法、装置及设备_中国人民解放军国防科技大学_202411165140.4

一种家校互通通讯方法及系统_北京九思自然科技有限公司_202210277709.0

一种家目录重定向方法、系统、装置及存储介质_广东中兴新支点技术有限公司_202111663838.5

一种家纺面料定型用匀速送料装置_宁波博洋家纺集团有限公司_202422561988.0

一种建材家装用竹刨花板_福人集团森林工业有限公司_202323339788.2

一种家纺纤维制品加工环节的条材卷绕装置_江苏洁瑞雅纺织品有限公司_202411549246.4

-相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

移动机器人导航避障的演员-评论家稳定性强化学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务