恭喜西北工业大学黄攀峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜西北工业大学申请的专利基于知识数据驱动分层强化学习的机器人技能学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116306896B 。
龙图腾网通过国家知识产权局官网在2025-05-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310000085.2,技术领域涉及:G06N3/092;该发明授权基于知识数据驱动分层强化学习的机器人技能学习方法是由黄攀峰;李冰倩;刘星;刘正雄;常海涛;马志强设计研发完成,并于2023-01-01向国家知识产权局提交的专利申请。
本基于知识数据驱动分层强化学习的机器人技能学习方法在说明书摘要公布了:本发明公开了一种基于知识数据驱动分层强化学习的机器人技能学习方法,首先建立机器人模型的动力学方程,构建机器人操作技能库;然后基于人类知识将机器人操作任务拆分为多个子任务,设计子任务的策略结构,实现状态空间和动作空间的降维;接下来从机器人操作技能库中选取合适的运动基元,设计机器人操作任务的状态空间、动作空间以及奖励函数;之后基于传统的强化学习算法对各个子任务的策略参数进行优化;最后使用各个子任务优化后的策略参数实现机器人任务。本发明克服了现有强化学习在机器人操作应用问题中的限制,实现真实机器人的技能学习,使得机器人可以在更广阔的场景里得到应用。
本发明授权基于知识数据驱动分层强化学习的机器人技能学习方法在权利要求书中公布了:1.一种基于知识数据驱动分层强化学习的机器人技能学习方法,其特征在于,包括以下步骤:步骤1:建立机器人模型的动力学方程,构建机器人操作技能库;利用阻抗控制方法实现机器人在笛卡尔空间下的柔顺控制,在笛卡尔空间下的阻抗控制器如式1所示: 其中,Md、Cd、Kd分别表示环境质量、阻尼、刚度参数,xd表示机器人期望轨迹,x表示机器人的实际轨迹,Fe表示机器人与接触物体之间的接触力;所述机器人操作技能库包括三种基础的机器人操作技能:轨迹跟踪、接触操作、击打技能,利用动态运动基元、柔顺运动基元、击打运动基元表示这三种技能;步骤2:基于人类知识将机器人操作任务拆分为多个子任务,设计子任务的策略结构,实现状态空间和动作空间的降维;步骤3:从机器人操作技能库中选取运动基元,设计机器人操作任务的状态空间、动作空间以及奖励函数;针对不同类别的任务特性,选取不同类别的运动基元进行策略表达;系统的状态、动作空间由策略参数构成;机器人操作任务的代价函数如下所示: 其中,J是轨迹τi在有限时间内的代价,包括最终代价即时代价rt和即时控制代价ti、tN分别表示有限时间的初始时刻和最终时刻;步骤4:基于强化学习算法对各个子任务的策略参数进行优化;利用基于路径积分的策略改进方法,在每次迭代过程中探索M次并执行;基于M次探索的策略参数和代价函数,更新策略,其参数更新规则如下所示,直至算法收敛: θ←θ+δθ9其中,τi表示每次试验的轨迹,{τi}k表示第K次探索的轨迹,S{τi}k表示每次试验轨迹的成本,N表示时间步的个数,表示即时成本,R表示二次控制代价的正半定权矩阵,θ表示策略参数,表示噪声参数,表示策略的特征向量,λ表示尺度,K表示探索次数,表示高斯基函数,[δθ]j表示每个时间步的策略平均值;步骤5:使用各个子任务优化后的策略参数实现机器人任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。