首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用于机械臂目标寻找的训练方法、方法及训练系统 

申请/专利权人:南京云创大数据科技股份有限公司

申请日:2023-08-07

公开(公告)日:2024-07-05

公开(公告)号:CN117162086B

主分类号:B25J9/16

分类号:B25J9/16

优先权:

专利状态码:有效-授权

法律状态:2024.07.05#授权;2023.12.22#实质审查的生效;2023.12.05#公开

摘要:本发明属于机械臂设计技术领域,提供了一种用于机械臂目标寻找的训练方法、方法及训练系统。所述优化方法包括:基于机械臂与预设目标间的重复交互构建训练样本并存储于经验池内直至达到所述经验池的最大存储容量;基于所述经验池内的训练样本,并以所述奖励值最大,以及每一时刻相应的最优的各关节的转动量及转动速度的熵最大为约束对所述随机策略网络及所述价值网络进行迭代更新直至到达预设的迭代阈值;进而获得最优的随机策略网络及价值网络。所述方法基于所述优化方法获取的最优的随机策略网络及价值网络进行。所述系统基于所述优化方法搭建。本发明实现了机械臂的智能化目标寻找,具有泛化能力强的优势。

主权项:1.一种用于机械臂目标寻找的训练方法,其特征在于,包括:获取当前时刻机械臂与预设目标间的相对位置;输入所述相对位置至随机策略网络以获取所述机械臂当前时刻可执行的若干组各关节的转动量及转动速度,并基于价值网络对它们分别进行评价以筛选出最优的各关节的转动量及转动速度;基于所述当前时刻最优的各关节的转动量及转动速度的执行获取所述当前时刻的奖励值;其中,所述奖励值通过奖励函数获取,所述奖励函数包括第一奖励项及第二奖励项,所述第一奖励项包括距离惩罚项及时间惩罚项,所述第二奖励项包括动作惩罚项;所述距离惩罚项包括所述机械臂的末端至所述预设目标间的欧式距离;所述时间惩罚项包括所述机械臂执行所述当前时刻最优的各关节的转动量及转动速度时的消耗时长;所述动作惩罚项包括所述机械臂执行所述当前时刻最优的各关节的转动量及转动速度后其与自身起点间的相对位置;重复上述过程以构建若干训练样本并存储于经验池内直至达到所述经验池的最大存储容量;基于所述经验池内的训练样本,并以所述奖励值最大,以及每一时刻相应的最优的各关节的转动量及转动速度的熵最大为约束对所述随机策略网络及所述价值网络进行迭代更新直至到达预设的迭代阈值;进而获得最优的随机策略网络及价值网络;其中,首先,计算所述经验池内每一所述训练样本的优先值;所述优先值为所述训练样本被抽中的概率;其次,基于sum-tree数据处理方法自所述经验池内抽样以进行所述随机策略网络及所述价值网络的迭代更新;其中,基于如下方式进行随机策略网络及价值网络的更新:随机策略网络更新的目标函数为:;其中,E表示期望;表示动作;为策略函数,表示在状态选择动作的概率;为状态动作值函数,表示在状态选择动作的得分数;策略目标函数的梯度为: ;参数的更新为: ;其中,是学习率;价值网络共两个,一个为V值函数网络,用于评估状态的价值,表示在这个状态下一直到最终状态得到的总的奖励的期望;一个为Q值函数网络,用于评估动作的价值,表示选择这个动作一直到最终动作得到的总的奖励的期望;其中,V值函数更新的目标函数为:;其中,是状态值函数,用于评价该状态的得分数;是状态动作值函数,用于评价该状态下,选择这个动作的分数;是策略函数,表示在状态选择动作的概率;V值函数的梯度为:;参数的更新为: ;Q值函数更新的目标函数为:;其中,;Q值函数的梯度为:;参数的更新为:。

全文数据:

权利要求:

百度查询: 南京云创大数据科技股份有限公司 一种用于机械臂目标寻找的训练方法、方法及训练系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。