买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西北工业大学
摘要:本发明提供了一种基于深度强化学习的无人机集群会合方法。训练阶段,在会合任务场景内设定一个固定区域作为无人机集群的会合区,获得区域中心点位置信息,建立评判无人机集群运动的深度神经网络,对深度神经网络进行训练,训练完成后,得到最终的深度神经网络;执行阶段,输入数据输入训练后的深度神经网络,进行判定。本发明扩展了无人机集群任务的状态空间和行为空间,面对不完整的场景信息实用性较强,构建了面向任务的无人机集群统一的决策网络,实现了决策网络对于不定数量的无人机的统一指挥控制。
主权项:1.一种基于深度强化学习的无人机集群会合方法,其特征在于包括下述步骤:步骤1:训练阶段,具体步骤如下:步骤1-1:在会合任务场景内设定一个固定区域作为无人机集群的会合区,获得区域中心点位置信息x0,y0,并随机初始化M架无人机于任务场景内,获取无人机状态信息,包括初始位置xi,yi,i=1…M,初始速度vxi,vyi,i=1…M;步骤1-2:建立评判无人机集群运动的深度神经网络,记为Net,具体步骤如下:步骤1-2-1:深度神经网络Net中包含两个结构完全相同的子网络NetTarget和NetEval,NetTarget网络用于对状态行为的价值评估,评估的状态是下一时刻的无人机在环境中得到的状态s';但行为的选取却并不是在NetTarget中选取的最优行为,而是将下一时刻的状态s'输入到NetEval,由NetEval选取估值最高的行为a',并将选取的行为传递到NetTarget;因此NetTarget网络接收来自记忆回放单元的下一时刻状态信息和来自NetEval网络的下一时刻最优行为信息,进行价值估计并输出价值Qs',a';θ';构建两个结构相同的深度神经网络NetTarget和NetEval,包括:一层输入层LInput,六层全连接层Lfull,一层输出层LOutput;深度神经网络Net中,输入层LInput的输入数据使用会合区域信息和无人机集群的状态信息;采用局部通信方式,每架无人机获取周围最近的三架无人机的状态信息,深度神经网络的输入数据包括会合区域坐标x0,y0,无人机自身的状态信息xi,yi和vxi,vxi,i=1…M,以及周围最近三个无人机的状态信息,总共2+4+3*4=18个维度;输出层LOutput的输出数据包含十个维度,每一个维度都代表了无人机加速度的选取概率;无人机加速度分为以无人机速度为基准的法向加速度a⊥和切向加速度a,其中a的取值集合为3,2,1,-1,-2,每个值的选取概率依次对应前五个维度的输出值,a⊥的取值集合为2,1,-1,-2,0,每个值的选取概率依次对应后五个维度的输出值,无人机在每个状态下分别选取a和a⊥的最大选取概率对应的取值;无人机根据基本运动学公式vt+1=vt+at计算下一状态速度,变量vt+1,vt,a均为矢量,其中vt+1为当前状态下无人机的合速度,vt为下一个状态下无人机的合速度,a为当前状态下神经网络的输出加速度矢量和,t为一个状态下无人机运动时间,从而无人机根据计算结果在下个状态执行对应动作;步骤1-2-2:设置深度神经网络的神经元激活函数:对于全连接层Lfull的深度神经网络的各个神经元内部使用Relu非线性激活函数,表达式为fx=max0,x,对于输出层LOutput的深度神经网络的每个神经元内部使用softmax函数,表达式为其中xi为上一层神经网络十个维度的输出值,e为自然指数;步骤1-2-3:初始化深度神经网络每一层的相关参数包括连接参数ωi和偏置参数bi;神经网络的层与层间为映射关系,表达式为ai+1=fzi+1;其中zi+1=ωi*ai+bi,ai与ai+1分别表示深度神经网络第i层与第i+1层的输出数据,f·为激励函数;在训练开始之前对权重参数进行初始化,偏置参数bi全部初始化为0,而连接参数ωi根据正态分布随机进行初始化;步骤1-2-4:设置深度强化学习的奖惩函数r;无人机行为结果的评判标准为:a、当无人机到达会合区域时,给予无人机正向回报r=100;b、当无人机没有到达会合区域时,观察无人机速度方向与无人机和会合区域中心点的连线的夹角β,若则r=dagent_target-d'agent_target+cosβ'-cosβ;c、当无人机没有到达回合区域时,若则r=dagent_target-d'agent_target+v;其中abs为取绝对值,dagent_target为当前状态下无人机与会合中心点的距离,d'agent_target为下一状态下无人机与会合中心点的距离,v为当前无人机的速度大小,β'为下一时刻状态无人机速度方向和无人机与敌方目标连线的夹角;步骤1-2-5:设置神经网络的记忆回放单元;构建大小为Size的样本存储空间即记忆回放单元,用来存储每次无人机与场景交互得到的状态、行为和奖惩信息,每一个单元信息表示为s,a,r,s',s为当前状态,a为执行动作,r为对应动作a的奖惩值,s’为执行动作a后的下一个状态;步骤1-2-6:设定当前训练回合数Mxunlian,初始值取0;步骤1-3:对深度神经网络进行训练,训练完成后,得到最终的深度神经网络;具体步骤如下:步骤1-3-1:获取M架无人机的位置xi,yi、速度信息vxi,vyi,i=1…M和会合区域中心点位置信息x0,y0,将它们作为神经网络Net的输入数据,根据NetEval网络的输出得到无人机加速度每个取值的预测概率大小,选取其中最大的一组表示为maxQ-Evals,a,w,根据步骤1-2-1中运动学公式计算得到无人机下一状态速度,执行对应动作a,s为当前无人机状态,w为当前状态下NetEval网络的连接参数;步骤1-3-2:无人机执行动作a后,与场景进行交互,到达下一个状态s',根据奖惩函数r获得奖惩值;检验记忆回放单元中存储样本信息的数量,若样本信息数量等于Size,则去掉最早存入的样本信息,并将新得到的四元组信息s,a,r,s'存储到记忆回放单元之中;若样本信息数量小于Size,则直接将新得到的样本信息存入即可;步骤1-3-3:将状态s在NetEval网络的预测行为下得到的下一个状态s'代入到NetTarget神经网络中进行前馈操作并输出最大概率值maxQ-Tars',a',w-,其中a'为状态s'代入NetTarget神经网络后对应最大概率的加速度所对应的动作,w-为NetTarget网络的权重参数;将状态s在记忆回放单元中的四元组信息对应的动作a的概率值maxQ-Evals,a,w更新为r+γmaxQ-Tars',a',w-,其中γ为折扣因子;步骤1-3-4:根据NetEval深度神经网络和NetTarget深度神经网络的输出构建损失函数为:Lθ=E[r+γmaxQ-Tars',a',w--maxQ-Evals,a,w2]其中E表示数学期望;步骤1-3-5:应用梯度下降方法进行深度神经网络的参数更新,其中NetEval神经网络采用实时更新,NetTarget神经网络的参数采用周期性滑动平均的方式进行软更新,公式如下:θ′target=k*θtarget+1-k*θeval;其中θtarget为更新前NetTarget神经网络的参数,θ′target为更新后NetTarget神经网络的参数,θeval为NetEval神经网络的参数,k为滑动因子,k∈0,1;步骤1-3-6:判断训练过程是否结束:根据无人机与会合区域中心点距离判断是否所有无人机均到达会合区域,若是则一个训练回合结束,进行神经网络参数保存,当前训练回合数Mxunlian进行加一,和总规定训练回合数进行比较,当到达指定的总训练回合数时,训练结束,得到最终的深度神经网络模型,若没有到达训练总回合数,返回步骤1-3继续下一个回合训练;若没有均到达会合区域,则返回步骤1-3-1,继续当前回合的迭代训练;步骤2:执行阶段,具体步骤如下:步骤2-1:在无人机集群会合场景中随机初始化M架无人机;选取一个坐标位置作为会合区域的中心点;步骤2-2:获取会合区域位置信息x0,y0和无人机集群初始的位置信息xi,yi,i=1…M和速度信息vxi,vxi,i=1...M,作为深度神经网络的输入数据输入;步骤2-3:步骤1训练完成的深度神经网络模型NetEval根据初始输入数据进行计算输出无人机集群下个状态加速度的选取概率,选取最大概率对应的加速度值,并根据步骤1-2-1中运动学公式计算对应的动作记为A,无人机集群执行该动作,进行判定;步骤2-4:若无人机集群执行完动作A后到达会合区域,则无人机集群完成会合任务;否则返回步骤2-2,继续获取下一个动作进行执行判定。
全文数据:
权利要求:
百度查询: 西北工业大学 一种基于深度强化学习的无人机集群会合方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。