恭喜中国人民解放军国防科技大学李聪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国人民解放军国防科技大学申请的专利基于增量强化学习的机器人安全训练方法、装置和设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119376261B 。
龙图腾网通过国家知识产权局官网在2025-04-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411959019.9,技术领域涉及:G05B13/04;该发明授权基于增量强化学习的机器人安全训练方法、装置和设备是由李聪;张兴龙;徐昕设计研发完成,并于2024-12-30向国家知识产权局提交的专利申请。
本基于增量强化学习的机器人安全训练方法、装置和设备在说明书摘要公布了:本申请涉及一种基于增量强化学习的机器人安全训练方法、装置和设备。所述方法包括:采用历史数据对机器人的非线性系统中未知模型信息进行估计,基于线性增量系统构建增广增量系统,并且构建惩罚函数表征机器人完成任务的需求,根据第k步之后的惩罚函数,得到用于评估机器人性能的值函数;根据值函数,构建Q‑函数,利用预先构建的模型引导增量强化学习算法在线迭代求解Q‑函数,得到最优控制策略和最优误差估计策略,以及机器人模型,并利用在线学习到的机器人模型进行前向预测促进强化学习在线训练,基于在线学习到的机器人模型,构建二次型约束优化对机器人最优控制策略进行微调,以此实现在线安全学习。采用本方法能够实现机器人安全训练。
本发明授权基于增量强化学习的机器人安全训练方法、装置和设备在权利要求书中公布了:1.一种基于增量强化学习的机器人安全训练方法,其特征在于,所述方法包括:采用历史数据对机器人的非线性系统中未知模型信息进行估计,构建机器人的线性增量系统;所述线性增量系统包括:控制输入增量项和线性化误差项;基于所述线性增量系统构建增广增量系统,并且构建惩罚函数表征机器人完成任务的需求;根据第k步之后的惩罚函数,得到用于评估机器人性能的值函数;根据所述值函数,构建Q函数,利用预先构建的模型引导增量强化学习算法在线迭代求解所述Q函数,得到最优控制策略和最优误差估计策略,以及机器人模型,并利用在线学习到的机器人模型进行前向预测得到额外数据促进强化学习在线训练;在线学习过程中,基于在线学习到的机器人模型,构建二次型约束优化对机器人最优控制策略进行微调,以此实现在线安全学习;采用历史数据构建非线性机器人相对应的线性增量系统,包括:机器人的非线性系统描述为: ;其中,,分别表示机器人的状态输入和控制输入;,分别表示状态矩阵和输入矩阵;将所述非线性系统的表达式两边同时乘以常数矩阵B,得到独立出未知模型信息的表达式为: ;其中,包含了所有的未知模型信息;采用历史数据对未知模型信息进行估计为: ;合并各表达式得到线性增量系统为: ;其中,表示线性化误差项,为控制输入增量项,为单位阵;基于所述线性增量系统构建增广增量系统包括:基于所述线性增量系统构建增广增量系统为: ;其中,;构建惩罚函数,包括:构建控制输入增量项对应的控制策略以及线性化误差项对应的估计策略分别为和;根据所述控制策略和所述估计策略构建惩罚函数为: ;其中,Q表示状态权重矩阵,R表示输入权重矩阵,表示估计误差策略对应的系数;根据第k步之后的惩罚函数,得到用于评估机器人性能的值函数,包括:根据第k步之后的惩罚函数,得到用于评估机器人性能的值函数为: ;根据所述值函数,构建Q函数,利用预先构建的模型引导增量强化学习算法在线迭代求解所述Q函数,得到最优控制策略和最优误差估计策略,以及机器人模型,包括:根据所述值函数,构建Q函数为: ;所述值函数可表述为: ; P为对称正定矩阵;对Q函数进一步化简为: ;为方便算法开发,将Q函数表示为: ;其中,; ;通过求解,和得到最优策略矩阵和最优估计误差策略矩阵为: ; ;根据,可以得到Q函数的Bellman方程为: ;根据公式,可得: ;将化简为: ; ; ; ;通过模型引导增量强化学习算法迭代学习,在第次迭代过程为: ; ; ;从估计的矩阵中提取机器人模型的模型信息: ;根据所述模型信息,进行前向预测,并且将前向预测产生的数据用于构建矩阵和矩阵,促进机器人策略的高效在线训练。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。