一种用于机械臂目标寻找的训练方法、方法及训练系统

导航：龙图腾网> 最新专利技术> 一种用于机械臂目标寻找的训练方法、方法及训练系统

申请/专利权人：南京云创大数据科技股份有限公司

申请日：2023-08-07

公开（公告）日：2024-07-05

公开（公告）号：CN117162086B

主分类号：B25J9/16

分类号：B25J9/16

优先权：

专利状态码：有效-授权

法律状态：2024.07.05#授权;2023.12.22#实质审查的生效;2023.12.05#公开

摘要：本发明属于机械臂设计技术领域，提供了一种用于机械臂目标寻找的训练方法、方法及训练系统。所述优化方法包括：基于机械臂与预设目标间的重复交互构建训练样本并存储于经验池内直至达到所述经验池的最大存储容量；基于所述经验池内的训练样本，并以所述奖励值最大，以及每一时刻相应的最优的各关节的转动量及转动速度的熵最大为约束对所述随机策略网络及所述价值网络进行迭代更新直至到达预设的迭代阈值；进而获得最优的随机策略网络及价值网络。所述方法基于所述优化方法获取的最优的随机策略网络及价值网络进行。所述系统基于所述优化方法搭建。本发明实现了机械臂的智能化目标寻找，具有泛化能力强的优势。

主权项：1.一种用于机械臂目标寻找的训练方法，其特征在于，包括：获取当前时刻机械臂与预设目标间的相对位置；输入所述相对位置至随机策略网络以获取所述机械臂当前时刻可执行的若干组各关节的转动量及转动速度，并基于价值网络对它们分别进行评价以筛选出最优的各关节的转动量及转动速度；基于所述当前时刻最优的各关节的转动量及转动速度的执行获取所述当前时刻的奖励值；其中，所述奖励值通过奖励函数获取，所述奖励函数包括第一奖励项及第二奖励项，所述第一奖励项包括距离惩罚项及时间惩罚项，所述第二奖励项包括动作惩罚项；所述距离惩罚项包括所述机械臂的末端至所述预设目标间的欧式距离；所述时间惩罚项包括所述机械臂执行所述当前时刻最优的各关节的转动量及转动速度时的消耗时长；所述动作惩罚项包括所述机械臂执行所述当前时刻最优的各关节的转动量及转动速度后其与自身起点间的相对位置；重复上述过程以构建若干训练样本并存储于经验池内直至达到所述经验池的最大存储容量；基于所述经验池内的训练样本，并以所述奖励值最大，以及每一时刻相应的最优的各关节的转动量及转动速度的熵最大为约束对所述随机策略网络及所述价值网络进行迭代更新直至到达预设的迭代阈值；进而获得最优的随机策略网络及价值网络；其中，首先，计算所述经验池内每一所述训练样本的优先值；所述优先值为所述训练样本被抽中的概率；其次，基于sum-tree数据处理方法自所述经验池内抽样以进行所述随机策略网络及所述价值网络的迭代更新；其中，基于如下方式进行随机策略网络及价值网络的更新：随机策略网络更新的目标函数为：；其中，E表示期望；表示动作；为策略函数，表示在状态选择动作的概率；为状态动作值函数，表示在状态选择动作的得分数；策略目标函数的梯度为：；参数的更新为：；其中，是学习率；价值网络共两个，一个为V值函数网络，用于评估状态的价值，表示在这个状态下一直到最终状态得到的总的奖励的期望；一个为Q值函数网络，用于评估动作的价值，表示选择这个动作一直到最终动作得到的总的奖励的期望；其中，V值函数更新的目标函数为：；其中，是状态值函数，用于评价该状态的得分数；是状态动作值函数，用于评价该状态下，选择这个动作的分数；是策略函数，表示在状态选择动作的概率；V值函数的梯度为：；参数的更新为：；Q值函数更新的目标函数为：；其中，；Q值函数的梯度为：；参数的更新为：。

全文数据：

权利要求：

百度查询：南京云创大数据科技股份有限公司一种用于机械臂目标寻找的训练方法、方法及训练系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种轮毂轴承单元信号检测装置

下一篇：储能电池包散热系统

相关技术

一种轮毂轴承单元信号检测装置

储能电池包散热系统

一种废旧路面沥青回收处理系统

一种旋钮开关

电池端面检测装置

一种建筑工程用水准仪

一种生物质燃料碳化和气化燃烧炉

一种基于视觉定位的全自动智能灌装装置

一种匹伐他汀关键中间体的制备方法

音柱系统

一种太阳高度角演示仪

一种通信工程用便携式光缆切割装置

训练相关技术

体能训练平台_河北省体育科学研究所(河北省体育局反兴奋剂服务中心)_202310252027.9

歌唱气息辅助训练设备_绍兴文理学院_202410695150.2

训练BEV对象检测模型_APTIV技术股份公司_202410108709.7

一种用于田径运动训练的体能综合训练装置_西安医学院_202310168437.5

上肢导引的儿童爬行训练装置及控制训练方法_河南中医药大学第一附属医院_202211270622.7

一种击打训练器_重庆电子工程职业学院_202323016757.3

一种呼吸训练器_首都医科大学附属北京安贞医院_202420080677.X

一种足球训练传球器_黄淮学院_202410631568.7

一种水中训练用泳帽_邵春奇_202322370358.0

一种消防训练头盔_应急管理部天津消防研究所_202322799046.1

臂相关技术

摆臂定位装置_深圳好博窗控技术股份有限公司_202322797967.4

一种机械臂_易程融创信息科技有限公司_202011596873.5

一种机械臂_易程融创信息科技有限公司_202011596867.X

一种摆臂式液位装卸臂用自动集液斗_连云港华泰石油化工机械有限公司_202323200905.7

一种解决弧门超长支臂运输的支臂结构_中国电建集团贵阳勘测设计研究院有限公司_201910987344.9

一种悬架摆臂_吉林大学_202323437460.4

灯臂的灯头连接结构_黄孟巧_201910300716.6

机臂和无人机_深圳互酷科技有限公司_202420273084.5

一种低温LNG装卸臂_连云港华泰石油化工机械有限公司_202323341820.0

一种防盗拖车臂组件_宁波涌耀金属制品有限公司_202323317460.0

目标相关技术

车辆及其目标检测方法_比亚迪股份有限公司_202410546925.X

一种目标检测模型构建方法、目标检测方法及相关装置_中国电力科学研究院有限公司_202410523072.8

目标识别模型的训练、目标识别方法、系统、设备及介质_苏州元脑智能科技有限公司_202410846360.7

目标对象的变化识别方法_苏州荟诗科技有限公司_202410379596.4

目标对象控制方法及装置_上海幻电信息科技有限公司_202011528945.2

目标跟踪方法、装置和存储介质_中国农业银行股份有限公司_202110701150.5

目标检测方法、装置及存储介质_小米汽车科技有限公司_202310715788.3

一种目标跟踪处理方法及装置_浙江大华技术股份有限公司_202010754392.6

训练和使用目标检测模型的方法及装置_支付宝(杭州)信息技术有限公司_202210753302.0

基于深度学习的水下目标检测机器人_河南大学_202410602431.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种用于机械臂目标寻找的训练方法、方法及训练系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务