买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西南石油大学
摘要:本发明公开了一种基于链路预测关联性的机器人决策方法,涉及机器人控制技术领域,包括:获取机器人控制任务的离线环境数据构建环境数据集;选择累计回报高的运动轨迹组成高回报轨迹集合;将高回报轨迹集合中各运动轨迹各时间步转换成三元组形式,构建知识图谱;用知识图谱训练链路预测模型,并用模型预测训练轨迹各时间步中实体与关系的关联性,并基于该关联性修改各时间步的期望回报,形成新的运动轨迹;用新的运动轨迹训练Transformer模型,并用该模型生成机器人控制任务的最优策略。本发明使用链路预测,增强模型对高回报轨迹的偏好,提高了机器人控制任务中轨迹数据的利用效率,使得机器人能够更准确地进行路径规划和任务执行。
主权项:1.一种基于链路预测关联性的机器人决策方法,其特征在于,包括如下步骤:S1、获取机器人控制任务所需的离线环境数据构建环境数据集;所述环境数据集为运动轨迹的集合,每条运动轨迹均包括多个时间步的参数,每个时间步的参数包括状态、动作、即时奖励和期望回报,所述期望回报为当前时间步到最终时间步的即时奖励之和;S2:计算所述环境数据集中每条运动轨迹的累计回报,选择累计回报高的运动轨迹组成高回报轨迹集合,所述累计回报为运动轨迹中各时间步的即时奖励之和;S3、将所述高回报轨迹集合中各运动轨迹各时间步转换成三元组形式,构建知识图谱,三元组以状态为实体、以期望回报或动作为关系;S4、将所述知识图谱输入构建的链路预测模型进行训练,生成基于高回报轨迹的链路预测模型,以预测三元组中的实体与关系的关联性;S5、从所述环境数据集中任意选择运动轨迹作为训练轨迹,使用训练后的链路预测模型计算训练轨迹各个时间步中实体与关系的关联性;S6、基于训练后的链路预测模型预测的关联性修正所述训练轨迹各时间步的期望回报,形成新的运动轨迹;S7、重复步骤S5和S6,得到多个新的运动轨迹,用多个新的运动轨迹训练Transformer模型,用训练后的Transformer模型生成机器人控制任务的最优策略。
全文数据:
权利要求:
百度查询: 西南石油大学 一种基于链路预测关联性的机器人决策方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。