首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于贝尔曼误差的方差最小化强化学习机械臂训练加速方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京邮电大学

摘要:本发明提供了一种基于贝尔曼误差的方差最小化强化学习机械臂训练加速方法,用于机械臂控制,包括如下步骤:将工程问题建立成强化学习环境模型,通过使用位置传感器和旋转编码器,获取并测量了机械臂在运动过程中的关节角度、角速度、末端执行器位置、末端执行器速度和障碍物位置等位置姿态数据。数据经神经网络转化,形成了机械臂状态的特征。利用基于投影贝尔曼误差的方差最小化算法进行训练,提升机器臂的控制策略。通过反复迭代训练,最终获得机械臂的最优控制策略,提升机械臂在特定任务和应用场景中的表现。该方法通过减小梯度估计方差,能加快收敛到最优策略的速度,提高机械臂训练的准确性和效率,改善自动化控制系统性能。

主权项:1.一种基于贝尔曼误差的方差最小化强化学习机械臂训练加速方法,其特征在于:包括如下步骤:步骤S1、针对机械臂的作业要求建立强化学习环境模型,实例化已训练好的神经网络模型;步骤S2、使用位置传感器和旋转编码器,获取并测量机械臂的状态信息,所述状态信息至少包括机械臂的关节角度、关节角速度、末端执行器位置、末端执行器速度和障碍物位置;步骤S3、将机械臂的状态信息和可选动作输入神经网络模型中,得到对应的特征向量,利用线性方法,并借助ε-greedy策略,选择动作,并保存动作对应的特征向量;步骤S4、智能体执行动作,获得奖励,进入下一个状态,用于表示下一个状态,利用所述步骤S3,获得状态下的动作和特征向量;步骤S5、机械臂利用基于投影贝尔曼误差的方差最小化方法的方法对机械臂控制策略的参数进行更新;步骤S6、重复所述步骤S2至步骤S5,直到机械臂到达目标位置或迭代达到最大次数;所述步骤S5具体为:基于投影贝尔曼误差的方差最小化方法的优化过程的最小化目标为: 公式1其中,表示误差,误差,表示误差的期望,为奖励,、分别用于表示期望符号和特征向量,定义来估算贝尔曼误差期望,所述公式1转化为: 公式2利用随机梯度下降方法分别对进行更新,更新公式如下: 公式3 公式4 公式5其中,,表示特征权重参数向量,为t+1时刻的最优动作集合,、表示t+1时刻下的状态和可调参数,为动作,、、、分别用于表示t时刻下的误差、状态、可调参数和贝尔曼误差期望估值,误差,表示贝尔曼误差期望的估值,、和分别是、和的学习率。

全文数据:

权利要求:

百度查询: 南京邮电大学 基于贝尔曼误差的方差最小化强化学习机械臂训练加速方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。