【发明公布】通过逆向强化学习的人类技能学习_发那科株式会社_202311717238.1

导航：龙图腾网> 最新专利技术> 通过逆向强化学习的人类技能学习_发那科株式会社_202311717238.1

申请/专利权人：发那科株式会社

申请日：2023-12-14

公开（公告）日：2024-06-21

公开（公告）号：CN118219250A

主分类号：B25J9/16

分类号：B25J9/16

优先权：["20221220 US 18/068,760"]

专利状态码：在审-公开

法律状态：2024.06.21#公开

摘要：一种用于使用逆向强化学习和强化学习奖励函数基于人类演示来教导机器人执行操作的方法。演示者执行操作，接触力和工件运动数据被记录。演示数据用于训练捕获人类技能的编码器神经网络，从而定义状态和动作的集合的高斯概率分布。编码器和解码器神经网络然后被用于实时机器人操作，其中解码器由机器人控制器使用以基于来自机器人的力和运动状态数据来计算动作。在每个操作之后，计算奖励函数，其具有奖励人类演示和机器人操作概率曲线之间的小的差异的库尔巴克‑莱布勒散度项和奖励机器人的成功操作的完成项。使用强化学习来训练解码器以最大化奖励函数。

主权项：1.一种用于通过人类演示来教导机器人执行操作的方法，所述方法包括：通过人手执行所述操作的演示，包括相对于固定工件操纵移动工件；通过计算机记录来自所述演示的力和运动数据，以创建演示数据，所述演示数据包括演示状态数据和演示动作数据；使用所述演示数据来训练第一神经网络，以输出与所述演示状态数据和所述演示动作数据相关联的第一概率分布；通过机器人执行所述操作，包括使用配置有策略神经网络的机器人控制器，所述策略神经网络基于作为反馈从机器人提供的机器人状态数据来确定要作为机器人运动命令提供的机器人动作数据；在所述机器人的所述操作完成之后计算奖励函数的值，包括使用所述第一神经网络来输出与所述机器人状态数据和所述机器人动作数据相关联的第二概率分布，以及在所述奖励函数中的库尔巴克-莱布勒KL散度计算中使用所述第一概率分布和第二概率分布；以及在所述策略神经网络的持续进行的强化学习训练中使用所述奖励函数的所述值。

全文数据：

权利要求：

百度查询：发那科株式会社通过逆向强化学习的人类技能学习

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种脱模剂集中供料装置_润英聚合机械制造(沈阳)有限公司_202323217419.6

下一篇：一种用于无级变速器的传动带金属环结构_惠州市金昌诚科技有限公司_202322970828.7

相关技术

一种脱模剂集中供料装置_润英聚合机械制造(沈阳)有限公司_202323217419.6

一种用于无级变速器的传动带金属环结构_惠州市金昌诚科技有限公司_202322970828.7

一种数控机床主轴箱冷却装置_莆田市华睿机械有限公司_202322982197.0

一种单因子加药泵回水安全阀_福建晋江天然气发电有限公司_202323102240.6

一种房建施工用安全防坠装置_无锡锡晟建设有限公司_202323185825.9

一种零部件加工的表面喷漆装置_黄山市鼎昌表面处理有限公司_202322779960.X

一种巡检方便的电容补偿柜_浙江欧尔成套柜架有限公司_202322864747.9

一种NB模组驱动的摄像采集装置_洛阳愿景科技有限公司_202322842230.X

一种配电网规划用的智慧配电网架_国网信息通信产业集团有限公司北京分公司_202322936663.1

气动搬运平台_江门市扬子自动化科技有限公司_202322983207.2

一种实时监测并控制化锡线硫化氢气体的装置_确信乐思化学(上海)有限公司_202322754610.8

一种高选择性紧凑型超宽带滤波器的拓扑结构及滤波器_深圳市信维通信股份有限公司_202322883966.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】通过逆向强化学习的人类技能学习_发那科株式会社_202311717238.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务