首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于强化学习的威胁规避下无人机路径规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:兰州理工大学

摘要:本发明公开了一种基于强化学习的威胁规避下无人机路径规划方法,包括:构建多目标跟踪场景,基于多目标跟踪场景进行目标初始化得到初始化信息;基于初始化信息构建运动状态模型和量测模型;基于运动状态模型和量测模型进行目标运动状态预测得到联合概率和状态预测概率密度;基于状态预测概率密度获取目标状态信息,基于目标状态信息构建下一时刻动作的伪量测,并基于伪量测得到伪更新后的目标状态信息;基于目标实际飞行状态进行目标威胁度评估得到伪更新后的目标威胁度;基于伪更新后的目标状态信息和伪更新后的目标威胁度得到最优决策;基于最优决策进行无人机路径规划。

主权项:1.一种基于强化学习的威胁规避下无人机路径规划方法,其特征在于,包括以下步骤:构建多目标跟踪场景,基于所述多目标跟踪场景进行目标初始化得到初始化信息;基于所述初始化信息构建运动状态模型和量测模型;基于所述运动状态模型和所述量测模型进行目标运动状态预测得到联合概率和状态预测概率密度;所述状态预测概率密度的计算公式为: 式中,表示k-1时刻的状态估计值,Pk-1|k-1表示k-1时刻的状态估计误差协方差矩阵,Fk-1表示状态转移矩阵,Γk-1表示噪声矩阵,表示k时刻的状态预测值;基于所述状态预测概率密度获取目标状态信息,基于所述目标状态信息构建下一时刻动作的伪量测,并基于所述伪量测得到伪更新后的目标状态信息;基于目标实际飞行状态进行目标威胁度评估得到伪更新后的目标威胁度;基于所述伪更新后的目标状态信息和所述伪更新后的目标威胁度得到最优决策;无人机基于所述最优决策进行变轨操作得到状态后验概率密度,基于所述状态后验概率密度对多目标运动状态进行更新,具体计算过程为: 式中,Hk表示量测矩阵,Kk表示k时刻卡尔曼增益矩阵,表示k时刻的状态更新;基于所述伪更新后的目标状态信息和所述伪更新后的目标威胁度得到最优决策的过程中包括构建奖励函数,其中,所述奖励函数的计算公式为:ifω1*r1+ω2*r2>ω1*r3+ω2*r4:rk=ω1*r1+ω2*r2-ω1*r3+ω2*r4else:rk=0式中,r1=trPk-1|k-1,r2=threat_before,r3=trPk|k,r4=threat_after,rk表示奖励函数,ω1+ω2=1;基于强化学习得到最优控制决策进行路径规划。

全文数据:

权利要求:

百度查询: 兰州理工大学 一种基于强化学习的威胁规避下无人机路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术