买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:松延动力(北京)科技有限公司
摘要:本发明提出了一种人形机器人自适应步态转换方法,首先使用逆运动学来计算目标机器人的关节位置,在缩放后,将目标机器人在每一帧中的基准位置和方向设置为源运动数据的基准位置与方向,然后,搭建仿人运动学习框架,以提供更准确和鲁棒的潜在状态估计,最终提高策略的性能,最后,根据仿人运动学习框架生成步态转换算法,本发明通过采用统一运动重定向技术和非对称动作‑评论架构,结合WGAN‑div判别器,实现了机器人从行走到跑步的平滑过渡,无需中断,提高了运动的自然性和连贯性,本发明不仅推动了仿人机器人技术的发展,还为机器人在更广泛领域的应用提供了新的可能性,特别是在需要机器人与人类密切互动的场景中。
主权项:1.一种人形机器人自适应步态转换方法,其特征在于:包括如下步骤:S1、动作重映射:收集真实人体运动数据,并重新定位运动数据以适应人型机器人,具体如下:首先,将真实人体运动定义为源运动,并通过运动捕捉装置收集源运动数据,然后,分别在源运动和目标人型机器人中选择一组关键点,通过缩放源运动数据以适应目标人型机器人的大小,并给定源运动中每个关键点在每个时间步长t的3D位置,再然后,通过使用逆运动学来计算目标人型机器人的关节位置,在缩放后,将目标人型机器人在每一帧中的基准位置和方向设置为源运动数据的基准位置与方向;S2、搭建仿人运动学习框架:S21、将仿人运动控制建模为部分可观察的马尔可夫决策过程,表示为其中,完整状态、部分观测状态和动作分别表示为和状态转移概率定义为pst+1|st,at,策略π根据当前观测结果选择动作:at~π·|ot,折扣因子γ,用于衡量未来的奖励,奖励函数r定义为rt=rst,at,目标是使累计折扣奖励最大化,表示为Jπ=Eτ~p·|π[∑tγtrst,at];S22、搭建非对称的动作-评论架构,具体如下:搭建估计器网络、评价网络以及动作网络,动作-评论架构包含估计器模块和控制器模块,估计器模块内含环境状态st数据和用于评价环境状态的评价网络、估计器以及用于评价上下文状态向量zt和估计线速度的动作网络,控制器模块包括用于控制人型机器人的PD控制器,估计器与估计器网络连接,估计器网络表示为ε,取ot:t-h=[ot,ot-1,…ot-h]T作为输入,输出连接动作网络,能够输出上下文状态向量zt和估计的线速度到动作网络中,通过动作网络将其解析、规划后输送到PD控制器,PD控制器控制人型机器人生成动作,S23、构建奖励系统,具体如下:首先,在非对称的动作-评论架构中接入WGAN-div判别器,PD控制器将生成动作输送给WGAN-div判别器进行判别,奖励系统包括风格奖励和任务奖励,风格奖励由WGAN-div判别器进行判定,任务奖励由PD控制器进行判别,WGAN-div判别器由θ参数化的判别器网络Dθ被集成到动作-评论架构中,以评估生成的数据分布和参考数据分布之间的Wasserstein-1距离,奖励系统除了来自环境的任务奖励rt外,WGAN-div判别器还为策略训练提供风格奖励rs,让策略输出的动作与参考动作保持相同的风格,然后,通过采用具有发散惩罚的WassersteinGAN进行奖励函数学习,Wasserstein-1距离定义为: 其中表示在具有边值Pr和Pg的所有联合分布λx,y的集合上取最大下界,WGAN-div判别器Dθ在Lipschitz约束的情况下使以下目标最大化: 此约束是使用散度惩罚强制执行的,通过最大化实样本和生成样本之间的期望差来优化Dθ,并使用散度惩罚来强制1-Lipschitz约束,其中C1表示1-Lipschitz-连续函数集: 判别器Dθ使用多个状态转换作为输入,以此促进动作之间转换的行为。
全文数据:
权利要求:
百度查询: 松延动力(北京)科技有限公司 一种人形机器人自适应步态转换方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。