首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】通过逆向强化学习的人类技能学习_发那科株式会社_202311717238.1 

申请/专利权人:发那科株式会社

申请日:2023-12-14

公开(公告)日:2024-06-21

公开(公告)号:CN118219250A

主分类号:B25J9/16

分类号:B25J9/16

优先权:["20221220 US 18/068,760"]

专利状态码:在审-公开

法律状态:2024.06.21#公开

摘要:一种用于使用逆向强化学习和强化学习奖励函数基于人类演示来教导机器人执行操作的方法。演示者执行操作,接触力和工件运动数据被记录。演示数据用于训练捕获人类技能的编码器神经网络,从而定义状态和动作的集合的高斯概率分布。编码器和解码器神经网络然后被用于实时机器人操作,其中解码器由机器人控制器使用以基于来自机器人的力和运动状态数据来计算动作。在每个操作之后,计算奖励函数,其具有奖励人类演示和机器人操作概率曲线之间的小的差异的库尔巴克‑莱布勒散度项和奖励机器人的成功操作的完成项。使用强化学习来训练解码器以最大化奖励函数。

主权项:1.一种用于通过人类演示来教导机器人执行操作的方法,所述方法包括:通过人手执行所述操作的演示,包括相对于固定工件操纵移动工件;通过计算机记录来自所述演示的力和运动数据,以创建演示数据,所述演示数据包括演示状态数据和演示动作数据;使用所述演示数据来训练第一神经网络,以输出与所述演示状态数据和所述演示动作数据相关联的第一概率分布;通过机器人执行所述操作,包括使用配置有策略神经网络的机器人控制器,所述策略神经网络基于作为反馈从机器人提供的机器人状态数据来确定要作为机器人运动命令提供的机器人动作数据;在所述机器人的所述操作完成之后计算奖励函数的值,包括使用所述第一神经网络来输出与所述机器人状态数据和所述机器人动作数据相关联的第二概率分布,以及在所述奖励函数中的库尔巴克-莱布勒KL散度计算中使用所述第一概率分布和第二概率分布;以及在所述策略神经网络的持续进行的强化学习训练中使用所述奖励函数的所述值。

全文数据:

权利要求:

百度查询: 发那科株式会社 通过逆向强化学习的人类技能学习

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。