一种基于模仿与变参两阶段强化学习的机械臂控制方法

导航：龙图腾网> 最新专利技术> 一种基于模仿与变参两阶段强化学习的机械臂控制方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州电子科技大学

摘要：本发明提供了一种基于模仿与变参两阶段强化学习的机械臂控制方法，包括如下步骤：1获取手动控制机械臂完成指定任务的专家运动轨迹，归一化处理得到模仿学习数据集；2利用获取的数据集，训练一个接近于专家策略的机械臂模仿学习策略；3基于模仿学习策略设计一个参数高效微调策略与环境进行交互训练，并利用一个价值网络对策略学习进行指导，得到最终的强化学习策略；4利用强化学习策略输出机械臂的控制动作序列，执行完成多种任务。本发明通过设计一种两阶段的强化学习方法，利用参数高效微调策略，可以利用少量的专家演示信息以及环境交互次数，在保证安全性、稳定性的前提下快速训练并学习策略，控制机械臂完成指定任务。

主权项：1.一种基于模仿与变参两阶段强化学习的机械臂控制方法，其特征在于，包括如下步骤：步骤1、获取手动控制机械臂完成指定任务的专家运动轨迹，归一化处理得到模仿学习数据集，所述模仿学习数据集中包括当前状态-动作-奖励-下一状态元组；步骤2、训练一个接近于专家策略的机械臂模仿学习策略，所述模仿学习策略为：将模仿学习数据集中的状态作为输入，通过特征提取模块提取低维的特征向量，然后通过一个特征调制模块对低维特征向量进行调整得到调制特征，最后通过动作生成模块将一个初始随机噪声在调制特征条件下，通过编码器-解码器结构的生成网络生成与数据集中的状态对应动作形状相同的动作；步骤3、构建一个参数高效微调策略与环境进行交互训练，并利用一个价值网络对机械臂模仿学习策略的梯度学习进行指导，得到最终的强化学习策略；步骤4、利用最终的强化学习策略输出机械臂的控制动作序列，执行完成指定任务。

全文数据：

权利要求：

百度查询：杭州电子科技大学一种基于模仿与变参两阶段强化学习的机械臂控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：用于车辆的诊断与刷新设备及方法、系统、车辆以及计算机存储介质

下一篇：用于获取联合学习过程的梯度数据的方法和装置

相关技术

用于车辆的诊断与刷新设备及方法、系统、车辆以及计算机存储介质

用于获取联合学习过程的梯度数据的方法和装置

一种多功能电源变换装置的控制方法

雾化器、电子雾化装置及雾化组件

靶向蛋白造影剂、其制备方法及用途

有机化合物及包含其的有机发光器件

一种燃气管道用支吊架结构

增透膜、光学透镜及光纤激光设备

降噪构件和具有降噪构件的用于制动系统的电磁阀

空调的控制方法、装置、设备存储介质及车辆

一种换热器结构及冷却系统

退役电池包上盖搬移方法及系统

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于模仿与变参两阶段强化学习的机械臂控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务