首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于模仿与变参两阶段强化学习的机械臂控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州电子科技大学

摘要:本发明提供了一种基于模仿与变参两阶段强化学习的机械臂控制方法,包括如下步骤:1获取手动控制机械臂完成指定任务的专家运动轨迹,归一化处理得到模仿学习数据集;2利用获取的数据集,训练一个接近于专家策略的机械臂模仿学习策略;3基于模仿学习策略设计一个参数高效微调策略与环境进行交互训练,并利用一个价值网络对策略学习进行指导,得到最终的强化学习策略;4利用强化学习策略输出机械臂的控制动作序列,执行完成多种任务。本发明通过设计一种两阶段的强化学习方法,利用参数高效微调策略,可以利用少量的专家演示信息以及环境交互次数,在保证安全性、稳定性的前提下快速训练并学习策略,控制机械臂完成指定任务。

主权项:1.一种基于模仿与变参两阶段强化学习的机械臂控制方法,其特征在于,包括如下步骤:步骤1、获取手动控制机械臂完成指定任务的专家运动轨迹,归一化处理得到模仿学习数据集,所述模仿学习数据集中包括当前状态-动作-奖励-下一状态元组;步骤2、训练一个接近于专家策略的机械臂模仿学习策略,所述模仿学习策略为:将模仿学习数据集中的状态作为输入,通过特征提取模块提取低维的特征向量,然后通过一个特征调制模块对低维特征向量进行调整得到调制特征,最后通过动作生成模块将一个初始随机噪声在调制特征条件下,通过编码器-解码器结构的生成网络生成与数据集中的状态对应动作形状相同的动作;步骤3、构建一个参数高效微调策略与环境进行交互训练,并利用一个价值网络对机械臂模仿学习策略的梯度学习进行指导,得到最终的强化学习策略;步骤4、利用最终的强化学习策略输出机械臂的控制动作序列,执行完成指定任务。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 一种基于模仿与变参两阶段强化学习的机械臂控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术