首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于元模仿学习的双臂机器人智能搬运方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨理工大学

摘要:本发明提供了一种基于元模仿学习的双臂机器人智能搬运方法。该方法包括以下步骤:首先,根据搬运难度进行分级,越光滑、越重的物体等级越高,搬运使用的力越大,由操作者操控双臂机器人执行搬运任务,获取示教数据集,对示教数据集进行预处理,合成专家数据集;其次,运用专家示教数据集进行最大熵逆强化学习训练奖励函数;再次,使用训练出来的奖励函数作为动作指导,采用MAML元强化学习方法,训练出一个泛化能力足够强的双臂搬运策略模型。本发明使双臂机器人可在保持一定效率的情况下,既能成功执行样本之内物块搬运,又能通过少量数据样本的适应,成功执行样本之外物体的搬运任务,相较于传统的双臂机器人搬运规划方法和一般的强化学习机器人搬运算法,提升了双臂机器人在搬运任务上的泛化能力并降低了训练成本。

主权项:1.一种基于元模仿学习的双臂机器人智能搬运方法,其特征在于,该方法包括以下步骤:步骤1:示教数据收集与专家数据库创建:根据搬运难度进行分级,越光滑、越重的物体等级越高,搬运使用的力越大,由操作者操控机器人执行搬运任务,搬运多种的物体。获取示教数据集,表示为机器人状态数据包括关节角、手臂末端力、期望关节角、被搬运物体的位姿和掉落次数。对收集的示教数据集进行预处理,并将处理过的数据集成专家示教数据集,表示为其中s表示观测到的信息,a表示当前状态映射的机器人动作;步骤2:基于最大熵逆强化学习的奖励函数训练:采用MLP网络来近似这个未知的奖励函数,网络的输入是专家数据库中的状态特征,即收集到的关节角、手臂末端力、期望关节角、被搬运物体的位姿和掉落次数这些机器人状态数据,输出是奖励值rφ=gf,φ,其中g表示非线性奖励函数,f表示状态特征,φ为神经网络参数。优化神经网络的网络参数,提高在使用该奖励函数下训练策略执行专家行为的概率,并引入最大熵约束,鼓励策略的多样性;步骤3:基于MAMLModel-AgnosticMeta-Learning,即模型无关的元学习的双臂搬运策略训练:从多样化的搬运任务中进行任务抽样,涵盖不同物体质量和摩擦系数不同的特性,以确保任务具有代表性和多样性。使用训练好的奖励函数模型来指导双臂机器人的行为,通过MAML的快速适应能力,提高机器人在多变环境中搬运任务的泛化性能。利用训练好的策略模型执行多样化搬运,通过MAML的适应能力和逆强化学习的快速学习能力优化搬运任务的泛化效果并减少训练时间。

全文数据:

权利要求:

百度查询: 哈尔滨理工大学 一种基于元模仿学习的双臂机器人智能搬运方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。