买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:大连海事大学
摘要:本发明公开了一种基于执行评论体系强化学习的无人船航向跟踪控制方法,所述方法包括获取考虑航行在海上的无人船舶会受到环境干扰影响的带有不确定干扰项的无人船航向控制数学模型;并将无人船航向控制数学模型转换成二阶状态空间方程,并将二阶状态空间方程作为无人船航向跟踪控制模型;根据无人船航向跟踪控制模型,构造无人船航向跟踪控制的一阶二阶代价函数与一阶二阶哈密顿‑雅可比‑贝尔曼方程,获得最优一阶虚拟控制率与最优最终控制器的估计值,且在船舶航向跟踪控制系统中,每一阶都会得到一个执行网络与评价网络,提高了船舶航向跟踪控制系统的学习能力,确保无人船能够高效的得到跟踪期望航向,以实现无人船航向优化跟踪控制。
主权项:1.一种基于执行评论体系强化学习的无人船航向跟踪控制方法,其特征在于,包括以下步骤:S1:获取考虑航行在海上的无人船舶会受到环境干扰影响的带有不确定干扰项的无人船航向控制数学模型;并将无人船航向控制数学模型转换成二阶状态空间方程,并将二阶状态空间方程作为无人船航向跟踪控制模型;S2:根据无人船航向跟踪控制模型,构造无人船航向跟踪控制的一阶代价函数,以获取一阶哈密顿-雅可比-贝尔曼方程;并采用梯度下降法,根据一阶哈密顿-雅可比-贝尔曼方程获取最优一阶虚拟控制率;S3:根据最优一阶虚拟控制率构建第一执行评价体系,以获取最优一阶虚拟控制率的估计值;所述第一执行评价体系包括第一执行网络critic与第一评价网络actor;S4:根据所述最优一阶虚拟控制率的估计值获取无人船航向控制的二阶动态误差;并根据所述二阶动态误差构建二阶代价函数,以获取二阶哈密顿-雅可比-贝尔曼方程;并基于采用梯度下降法,根据二阶哈密顿-雅可比-贝尔曼方程获取最优最终控制器;S5:根据最优最终控制器构建第二执行评价体系以获取最终控制器的最优最终控制器的估计值;所述第二执行评价体系包括第二执行网络critic与第二评价网络actor;S6:根据所述最优最终控制器的估计值实现无人船的航向优化跟踪控制。
全文数据:
权利要求:
百度查询: 大连海事大学 基于执行评论体系强化学习的无人船航向跟踪控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。