买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京航空航天大学
摘要:本发明涉及一种基于双延时确定策略梯度的六自由度无人机空战决策方法,属于无人机控制领域。本发明针对现有技术存在的模型简单、与空战实际相去较远的问题,建立了UCAV非线性六自由度全量方程并在此基础上构建了双延时确定策略梯度算法的空战决策框架。本发明建立了UCAV的非线性六自由度模型,相较于以过载为输入的三自由度质点模型更加贴近空战实际,得到的结果更具有参考价值。本发明采用了具有连续决策输出的双延时确定策略梯度算法,相较于以DQN算法为代表的离散决策输出算法,无需将控制指令离散化为几个机动动作,拓宽了决策指令的可选择范围,更具有实际应用价值。
主权项:1.一种六自由度环境下基于双延时确定策略梯度的空战决策方法,其特征在于,该方法包括如下步骤:步骤S1、建立UCAVUnmannedCombatAirVehicle非线性六自由度模型,在MATLABSIMULINK中构建六自由度模型并利用PID方法设计控制器;步骤S2、构建仿真空战环境,其中,敌我两架UCAV性能相同,采用了基于攻击区假定的胜负判定方法,敌机决策采用纯追踪法;步骤S3、实现基于双延时确定策略梯度算法的空战决策训练框架,将空战决策问题建模为马尔可夫决策过程,设计状态空间、动作空间及奖励函数;步骤S4、随机初始化空战态势并通过不断训练得到空战决策训练框架中用于决策的策略网络;步骤S5、利用得到的策略网络在仿真环境中进行空战,我机使用策略网络输出的指令,敌机使用纯追踪法产生的指令;其中,所述步骤S3具体包括如下步骤:步骤S31:状态空间设计在空战过程中,与交战态势相关的飞行状态量包括三维坐标x,y,z、速度V、航迹倾斜角γ、航迹方位角χ、俯仰角θ、滚转角φ;状态空间选取的状态量如下:[R1000,γ',χ',zr1000,γr,χr,θr,φr,γb,χb,θb,φb,Vr1000,Vb1000]8式中,R为两机间的距离,单位为m,γ'为两机连线的航迹倾斜角,χ'为两机连线的航迹方位角,下标指代红方r或蓝方b;步骤S32:动作空间设计定义策略网络输出动作为速度V、俯仰角θ、滚转角φ指令的变化量,把策略网络输出值映射为UCAV控制指令;步骤S33:奖励函数设计奖励函数包括角度优势奖励、距离优势奖励、高度优势奖励、获胜奖励四部分,综合上述四项奖励得到最终奖励函数;步骤S34:在Python中实现基于TD3算法的空战决策训练框架,TD3算法为双延时确定策略梯度算法,TD3算法训练的目的在于得到策略网络进行决策,策略网络根据输入的公式8所示状态量输出动作,包括:速度V、俯仰角θ、滚转角φ指令;训练过程中,策略网络不断决策与环境进行交互,根据得到的奖励值大小来优化策略网络参数;所述步骤S33具体包括:步骤S331:角度优势奖励在地面坐标系下,红机坐标为xr,yr,zr,蓝机坐标为xb,yb,zb,则由红机指向蓝机的连线为Rrbxb-xr,yb-yr,zb-zr;红机的速度矢量为Vrvxr,vyr,vzr,蓝机的速度矢量为Vbvxb,vyb,vzb;角度优势奖励函数形式如下: 式中指攻击角,指逃逸角,其计算式如下: 步骤S332:距离优势奖励距离优势奖励函数形式如下: 式中Rlim为临界距离,当距离大于等于Rlim时,随距离增大奖励值逐渐降低,Rlim值的设置与攻击区范围有关;步骤S333:高度优势奖励高度优势奖励函数形式如下: 式中zr为我机高度,单位为m;步骤S334:获胜奖励在一方将对方纳入攻击区或对方坠地时判定获胜,给予高奖励值: 步骤S335:综合上述四项奖励得到最终奖励函数具有如下形式:r=rangle+rdis+rh+rwin14。
全文数据:
权利要求:
百度查询: 北京航空航天大学 基于双延时确定策略梯度的六自由度无人机空战决策方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。