买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供了一种基于强化学习的陆基装备集群维护资源智能化配置与调度策略制定方法,其具体步骤如下:步骤1:陆基装备集群维护资源配置与调度过程描述;步骤2:基于智能体的陆基装备集群信息交互建模;步骤3:陆基装备集群智能化调度规则;步骤4:基于强化学习的陆基装备集群资源调度与多供应点多备件资源配置策略制定算法;本发明考虑陆基装备的异质保障资源、多供应点横向纵向调度等特征,发明了一种基于强化学习的陆基装备集群维护资源智能化配置与调度策略制定方法,可在考虑陆基装备异质保障资源的情况下,为多级库存点中心库存点、基层库存点的保障资源配置进行决策。然后,在保障资源配置条件下,为陆基装备集群保障资源提供包含横向纵向优化调度方案,在满足陆基装备集群维修保障需求的同时,可有效降低陆基装备集群的维护成本。
主权项:1.一种基于强化学习的陆基装备集群维护资源智能化配置与调度策略制定方法,包括步骤:步骤1:陆基装备集群维护资源配置与调度过程描述;维护资源配置是指:维护资源的库存点包括多个基层库存点和中心库存点以及1个维修基地,所述基层库存点是指配备有一定数量的保障资源和保障人员的库存点;所述中心库存点是指配备有一定数量的保障资源和保障人员的库存点,其保障资源和保障人员的数量多于基层库存点;所述维修基地是指用于对所有拆卸下来的故障件进行维修的基地,并在维修完成后运送至故障件原来所处的基层库存点;所述调度过程包括:横向转运、纵向转运;所述横向转运是指当一个基层库存点由于维护资源不足无法提供相应的保障时,向其他基层库存点申请保障资源调运的过程;所述纵向转运是指当一个基层库存点由于维护资源不足无法提供相应的保障时,向中心库存点申请保障资源调运的过程;步骤2:基于智能体的陆基装备集群信息交互建模;交互建模是指:设立陆基装备智能体、基层库存点智能体、中心库存智能体、维修基地智能体和控制智能体,各智能体之间进行信息传递和决策交互;步骤3:陆基装备集群智能化调度规则;智能化调度规则是指:1每辆保障资源运输车辆可为多个保障点提供保障资源,但每个保障点在每次配置的过程中仅可由1辆保障资源运输车辆为其提供保障资源且仅可被服务1次;2保障点优先从距其最近的基层库存点中调度保障资源;3基层库存点存放部分类别和一定数量的保障资源;4保障资源通过横向调度和纵向调度的方式进行调度;5在对保障资源进行调度时,保障资源的需求量之和不能超过保障资源运输车辆的最大载重量和最大容积;6维修件在完成修复后需调运至维修件原来所处的基层库存点;7每个保障点均有接受保障维修的最早开始时间和最晚开始时间,若保障资源运输车辆早于最早开始时间,则需进行等待;若保障资源运输车辆晚于最晚开始时间,则判定该节点无法在任务规定时间内进行维修,维修保障失败;步骤4:基于强化学习的陆基装备集群资源调度与多供应点多备件资源配置策略制定算法;算法4.1提供各库存点的保障资源配置情况,并将其传递给算法4.2,算法4.2在保障资源配置的条件下进行保障资源运输车辆的调度优化,并将最终的保障成本作为适应度函数来指导算法4.1和算法4.2的优化过程;具体为:在步骤4中所述基于强化学习的陆基装备集群资源调度与多供应点多备件资源配置策略制定算法,具体过程包括:4.1基于强化学习的保障资源配置算法Step1:人工狼群初始化在人工狼初始化阶段,将陆基装备所需的保障资源及其所存放的位置视为人工狼,根据保障资源的重量、体积、需求数量对陆基装备保障资源的单位价值密度进行排序,体积重量越大、需求数量越多,则其价值密度越大,并按照从大到小的次序进行排序,考虑到基层库存点的体积限制,若基层库存点的剩余容量大于某保障资源的体积,则可进行存放;否则,则不放入;假设陆基装备集群中共有p个基层库存点,q个中心存储点,并且根据前一部分的研究可知,陆基装备集群在任务周期内共需Num个备件,为了提高算法的收敛性,在初始化狼群时应尽可能的使人工狼群分布在约束边界附近;根据不同备件的重量、体积、需求数量对其单位价值密度进行排序,体积重量越大、需求数量越多,则其价值密度越大,并按照从大到小的顺序存放在数组X={x1,x2,…,xNum}中,其中,xi∈{1,2,…,p+q},i=1,2,…,n,xi表示第i个物品放置在第xi个存储点内,然后,按照数组X的顺序依次产生随机整数si,1≤si≤p,若第si个存储点可存放该备件,则将第xi个备件配置在存储点si内;否则,则不放入,重复以上步骤,直到将p个基层库存点全部配置完成,同样地,按照以上步骤,将q个中心存储点也进行配置;Step2:探狼游走行为设置狼群中探狼的比例,并令探狼在解空间内四处游走,感知当前位置的猎物气味浓度,即:解空间内的位置越好,猎物气味的浓度就越高,同时,解空间内的位置好坏由基于强化学习的保障资源配置算法即算法4.1和基于强化学习的保障资源调度算法即算法4.2共同决定,若探狼感知到更好的解空间位置,则进行移动;否则,则不进行移动;设置探狼比例α,令探狼i在解空间内四处游走,感知当前位置的猎物气味浓度即探狼的目标函数值Yi,若Yi>Ylead,则更新Ylead,令探狼i成为头狼,Ylead=Yi,其中Ylead为头狼所感知到的气味浓度;若Yi<Ylead,则执行探狼游走行为;假设探狼i向周围h个方向进行游走探寻猎物,将探狼i向第h个方向游走的行为定义为:将数组Xi视为探狼i的保障资源配置情况,若探狼i向第个方向游走,则令其执行h次运动算子ΘXi,M,stepa,其中stepa为游走步长,M={1,2,…,Num},同时,在每次游走后记录感知到的猎物气味浓度,设第h个方向的猎物气味浓度为若则向第h个方向前进一步并更新Xi,重复以上过程直至或游走次数T超过限值Tmax,其中选择的方向h满足: 同时,定义运动算子ΘXi,M,stepa的运算规则为:设探狼i的位置为Xi={xi1,xi2,…,xiNum};M={1,2,…,Num}表示进行反置的编码位集合,stepa为游走步长;Step3:猛狼奔袭行为根据狼群中人工狼所处位置的优劣,将目前所处位置最优的人工狼视为头狼,将除头狼外的人工狼均视为猛狼,通过较大的奔袭步长,令猛狼对其周围的解空间进行探索,若猛狼感知到更好的解空间位置,则进行移动并更新头狼;否则,则不进行移动;猛狼i的位置Xi依下式作变换:X′i=ΘXi,M,stepb其中,M可由下式求得: 式中,j=1,2,…,Num;k的初值为1;null表示空值,M是猛狼位置Xi与头狼位置Xlead不相同编码位的集合,对相同编码位的值不进行反置,体现猛狼的围猎基础和对自身优势的保持;对Stepb个相异编码位的值进行反置,表示人工狼逐渐向头狼位置聚集的趋势,体现头狼对狼群的指挥,但若M为空集,执行一次随机运动算子ΘXi,Mrand,1,其中Mrand={1,2,…,Num},设Yi为猛狼i所感知到的猎物气味浓度,若Yi>Ylead,则Ylead=Yi,猛狼i替代头狼;若Yi<Ylead,则猛狼i继续奔袭;Step4:头狼召唤行为头狼通过召唤的行为,令狼群中其他的人工狼向头狼的位置进行靠近,同时,在靠近的过程中,仍需在解空间中进行搜索,以搜索到猎物气味浓度更高的位置,若在搜索过程中感知到更好的解空间位置,则进行移动并更新头狼;否则,则不进行移动;参与召唤的人工狼i的位置Xi依下式进行位置变换:X″i=ΘX′i,Mrand,stepc式中,Mrand={1,2,…,Num};stepc为人工狼i执行围攻行为时的攻击步长;4.2基于强化学习的保障资源调度算法Step1:人工狼群初始化在人工狼初始化阶段,将保障资源运输车辆的调度序列、车辆编码和保障人员所构成的矩阵视为人工狼,根据陆基装备集群的维修保障需求和算法即算法4.1中给出的各类保障资源的配置条件,对横向转运和纵向转运的调度路线进行优化,并计算适应度函数适应度函数即可被等效视为解空间位置的优劣,若适应度函数越好,则对应解空间位置越好;拟设定人工狼群的规模为NS,最大迭代次数为Itersmax,最大游走次数为Tmax,初始化的具体步骤如下:1对人工狼i,i≤NS,置空Xir,Xiv和Xip,即Xir=Xiv=Xip=Φ;2随机产生初始保障点xi,读取其维修模式β,并且更新Xir,令Xir=Xir∪{xi},迭代次数Iters=1; 3根据临近矩阵规则,在保障点中寻找最近的节点xi′,更新Xir,令Xir=Xir∪{xi′}和迭代次数Iters=Iters+1;4若迭代次数Iters≤Itersmax,返回至步骤3;否则,继续执行步骤5;5根据客户编码序列Xir,同时根据相关约束计算相对应的配送陆基装备编码序列Xiv和保障人员矩阵Xip;6若i≤NS,更新i=i+1,并且返回至步骤1;否则,结束狼群初始化环节;Step2:探狼游走行为根据狼群中人工狼所处位置的优劣,将目前所处位置最优的人工狼视为头狼,将头狼以外的人工狼视为探狼,若探狼i的适应度Yi满足Yi<Ylead,则将探狼i代替头狼,并发号命令;否则,探狼i需要向其周围h个方向进行游走,探寻猎物,将探狼i向第l,l=1,2,…,h个方向游走的行为定义为:对与其相对应的保障点序列Xir={xi1,xi2,…xin}进行反转操作,具体操作过程为:首先,在Xir中随机选取一个客户xik,记与xik相邻的下一客户为xik+1;然后,根据近邻矩阵,确定距离客户xik最近的客户,并将其记为xig;最后,更新Xir=RevXir,xik+1,xig,并依据Xir及相关约束条件更新运输陆基装备编码序列Xiv;记探狼i向第l个方向游走前后的适应度值分别为Yi和Yil,若Yil<Yi,则将探狼位置更新为游走后的新位置;否则,探狼的位置不发生变化,随后,重复游走行为,直到Yi<Ylead或者tTmax;Step3:头狼召唤行为将头狼之外的所有人工狼视为猛狼,头狼通过召唤将自身经验与猛狼进行分享,召唤行为可定义为:首先,在头狼的客户编码序列Xir中随机取一子序列,并令其替换猛狼i的Xir中相同位置相同长度的子序列;随后,通过调整策略,确保每个客户在Xir中仅出现一次;最后,根据新的客户编码序列Xir和客户陆基装备相关约束条件更新猛狼i的陆基装备编码序列Xiv,从而得到新的配送路径;召唤机制体现了头狼对其他人工狼的引导作用,在向头狼聚拢的过程中,若存在Yi<Ylead,则猛狼i替换头狼,并继续召唤行为;否则该猛狼结束奔袭,转入待围攻状态;Step4:围攻行为由于奔袭后头狼距猎物很近,可将头狼位置视为最优解位置,围攻主要体现头狼与其他人工狼间的信息共享,则将围攻行为定义为:s在头狼的客户编码序列Xir中随机选择一子序列s1,若人工狼i的客户编码序列Xir中存在与s1包含相同客户但顺序不同的序列s2,且s2与s1具有相同的首尾元素,则比较子序列s1与s2的配送路径长度,若s2序列的路径长度lengths2小于s1序列的路径长度lengths1且Y′lead<Ylead,其中Y′lead为s2替换Xir中s1后的适应度值,则用s2替换Xir中的s1,并根据Xir和约束条件更新其陆基装备编码序列Xsv;若lengths2lengths1,则用s1替换Xir中的s2并更新其陆基装备路径编码序列Xiv和适应度Yi,若存在Yi<Ylead,则用人工狼i替换头狼并结束围攻行为。
全文数据:
权利要求:
百度查询: 北京航空航天大学 一种基于强化学习的陆基装备集群维护资源智能化配置与调度策略制定方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。