Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于IPPO算法的航天器追逐控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京航空航天大学

摘要:本发明公开了一种基于IPPO算法的航天器追逐控制方法,建立基于深度强化学习的航天器控制模型,将控制航天器追逐目标问题描述为马尔科夫决策过程;根据IPPO算法,搭建多航天器逐层优化策略网络,从单航天器神经网络开始训练,基于训练好的单航天器设计相关的目标智能体;再进行博弈提升航天器与目标的神经网络的性能,最后基于IPPO算法的进行多航天器与目标的逐层优化训练,利用训练好的策略网络实现多航天器追逐目标控制。通过神经网络智能控制克服了传统控制计算复杂、难以追逐具有自主运动能力的目标等不足,通过逐层优化训练,提高了算法的收敛速度,克服了航天器运动时状态空间过大的问题导致的训练效率不高的问题。

主权项:1.一种基于IPPO算法的航天器追逐控制方法,其特征在于,包括以下步骤:(1)建立基于深度强化学习的航天器控制模型,将控制航天器追逐目标问题描述为马尔科夫决策过程;(2)根据IPPO算法,搭建多航天器逐层优化策略网络,并进行训练;航天器与环境交互后,通过奖励函数获得每一步的奖励,神经网络利用这些奖励通过IPPO算法进行相应的更新;具体包括:(2.1)基于初始化目标状态,在设定环境中采用PPO算法训练单个航天器神经网络模型;(2.2)基于已训练好的单个航天器神经网络模型,在设定环境中采用PPO算法训练目标神经网络模型;(2.3)基于已训练好的单个航天器神经网络模型和目标神经网络模型,在设定环境中对单个航天器和目标各自采用PPO算法进行博弈训练;(2.4)基于步骤(2.3)中已训练好的单个航天器神经网络模型和目标神经网络模型,对多个航天器基于IPPO算法在设定的环境中进行训练;(3)多航天器利用训练好的策略网络,根据自身对环境的观测信息输出控制指令,实现多航天器追逐目标控制。

全文数据:

权利要求:

百度查询: 南京航空航天大学 基于IPPO算法的航天器追逐控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。