首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于混合专家经验回放的星群协同任务规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:天津大学

摘要:本发明公开了一种基于混合专家经验回放的星群协同任务规划方法,涉及强化学习、卫星调度和多智能体技术领域,包括以下步骤:S1:建立面向星座紧急任务规划的优化模型;S2:建立面向星座任务规划的马尔科夫决策模型,设计基于混合专家经验回放的深度Q‑Learning任务规划算法;S3:在线决策,利用训练好的网络进行实时任务规划。本发明采用上述的一种基于混合专家经验回放的星群协同任务规划方法,考虑用户需求、唯一性观测和星上观测资源的影响,以任务完成率、任务延迟时间及星上资源均衡度为指标,建立了面向对地紧急观测的决策模型,利用专家经验数据,设计基于专家经验的深度Q‑Learning星座任务规划算法,获得最优在线任务规划策略,规划卫星对目标的观测窗口。

主权项:1.一种基于混合专家经验回放的星群协同任务规划方法,其特征在于:包括以下步骤:S1:建立面向星座紧急任务规划的优化模型;在步骤S1中,星座紧急任务规划过程中有三种约束条件与综合收益目标,具体包括用户需求约束、唯一性观测约束和存储空间容量约束;用户需求约束: ;式中,表示任务的任务需求到达规划中心的时刻,表示为任务分配的时间窗口的开始执行时刻;唯一性观测约束: ;式中,i,j是两个相邻的分配给卫星s的任务,其观测开始和结束时刻分别为和,且;存储空间约束: ;式中,表示卫星执行任务前卫星的剩余存贮空间,表示卫星完成任务需要占用的星上存储空间;目标函数为: ;其中,代表系统对第个观测任务的决策,是决策过程中采取的决策策略,是第个观测任务的综合观测收益,分别代表任务完成率和剩余存储方差,分别代表任务完成率、延迟时间、剩余资源均衡的收益权重;S2:建立面向星座任务规划的马尔科夫决策模型,设计基于混合专家经验回放的深度Q-Learning任务规划算法;在步骤S2中,建立面向对地观测任务的马尔科夫决策模型,具体步骤如下:S2A:建立状态集S,将观测任务的到达时刻,观测任务的优先级,卫星与目标的距离、卫星与目标相对运动、卫星可观测时间窗口以及星群中各个卫星的空闲存储空间记为状态s,;式中,表示星群中包含的卫星总数,分别表示目标与卫星的距离以及相对运动关系,表示对目标的可视时间窗口,表示所有卫星的剩余存储容量;S2B:建立动作集A,规划决策中心为观测任务分配的可视时间窗口种类作为动作,,动作集A表示为: ;S2C:计算立即收益值,;其中,为执行任务获得的任务收益;S2D:表示未来收益值相对于当前收益值的重要程度,; ,只考虑当前收益不考虑未来收益; ,表示将未来收益和当前收益同等重要;在步骤S2中,基于混合专家经验回放的深度Q-Learning任务规划算法设计,包括以下步骤:S21:建立规划网络与混合专家经验数据库;基于深度Q-Learning任务规划网络主要包括当前值网络与目标值网络,其中目标值网络与当前值网络的网络结构与初始参数完全相同,当前值网络由全连接神经网络组成,神经网络包括1个输入层,2个隐藏层和1个输出层,输入节点数为所有卫星的状态集组合后的维度,输出为64维,分别对应星座32个卫星的2个可行时间窗口获得的期望累计收益;S22:基于混合专家经验回放的深度Q-Learning任务规划网络参数更新;当前值网络与目标值网络分别用Q-eval网络和Q-target网络表示,参数分别为,采用Adam优化器对当前值网络进行优化,基于Bellman方程构建损失函数如下: ;式中,是分别是自身经验回放池与专家经验回放池,表示当前状态,表示立即奖励,表示动作,表示下一步状态数据,表示目标值网络累计收益权值,表示当前值网络累计收益权值;S3:在线决策。

全文数据:

权利要求:

百度查询: 天津大学 一种基于混合专家经验回放的星群协同任务规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。