买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中南大学
摘要:本发明公开了一种基于Q‑learning的扒渣机器人阻抗控制方法。首先利用扒渣机器人运动学计算得到臂末端笛卡尔空间期望轨迹,采用安装在扒渣机器人末端的六自由度力力矩传感器测量得到机械臂的末端与目标物体产生的实际接触力。期望接触力采用Maxwell模型进行估计。将实际接触力和期望接触力求偏差再通过阻抗控制器对期望轨迹进行修正,同时使用Q‑learning的方法对阻抗控制器参数进行实时修订。最后利用逆运动学计算得到扒渣机器人关节角度的期望轨迹,借助其轨迹完成扒渣机器人的相关运动操作。本发明可以保证扒渣机器人与外界环境交互过程中的鲁棒性和稳定性,可应用于扒渣机器人的作业运动控制中。
主权项:1.一种基于Q-learning的扒渣机器人阻抗控制方法,其特征在于,包括以下步骤:S1:根据扒渣机器人工作的期望移动轨迹,设计阻抗控制器;并采集机械臂与目标物体之间的实际接触力;S2:采用Maxwell模型对扒渣机器人的期望接触力进行估计,计算实际接触力与期望接触力的偏差值,将偏差值输入到扒渣机器人阻抗控制器中,实现对期望轨迹的修正;S3:由扒渣机器人上一时刻和当前的各关节运行状态,结合Q-learning的强化学习方法,对步骤S1的阻抗控制器进行阻抗参数的在线修正,实现控制参数的最优化,从而将阻抗控制器改进为变阻抗控制器;S4:由扒渣机器人上一时刻的各关节运行状态,利用时间延时估计、期望速度反馈、期望位置反馈构建扒渣机器人的估计动力学模型,将步骤S1得到的角度空间轨迹转换为各关节控制力矩信号,并输入机器人伺服控制器中,实现扒渣机器人的推渣操作;所述步骤S3包括:S301:基于强化学习,定义负回报函数为: 其中,Q1,Q2,Q3为正定矩阵,用于定义奖励系数;ur定义为控制输入;S302:通过连续时间Bellman方程和欧拉公式,定义动作值函数即Q函数,递推关系式表示为:QXrk,urk=rXrk,urk·Δt+QXrk+1,hXrk+1其中,k表示为当前状态,k+1表示为下一个状态;表示末端位移和速度偏差的矢量,ur=hXr为控制策略;S303:利用线性离散时间状态方程和值函数近似思想,将Q函数简化为: 其中,表示对矢量进行张量运算,表示张量积;A表示参数集,上标T表示矩阵转置,A=AxxAxuAuuT,其中Axx,Axu,Auu分别表示的对应参数结果;S304:构造用于优化参数集A的误差函数efk为: 从而将对A的优化问题转化成对efk的最小值问题;S305:通过随机梯度法的求解,得到最优参数集A*,其中上标*表示最优;此时Q函数达到最小,最优输出通过求解下式来获取: 其中表示求偏导数,有: 其中,具有机械弹簧阻尼系统相同的形式,即: 最终的最优参数集始终保持Axx,Axu和Auu对角、正定且有界,从而使和正定且有界,以达到最优参数集具有弹簧阻尼形式,且系统保持稳定。
全文数据:
权利要求:
百度查询: 中南大学 一种基于Q-learning的扒渣机器人阻抗控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。