首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于强化学习的GNSS转发式无人机诱骗时延控制系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京航空航天大学

摘要:本发明涉及一种基于强化学习的GNSS转发式无人机诱骗时延控制系统,包括诱骗控制终端和被诱骗无人机;诱骗控制终端向被诱骗无人机转发时延受控的GNSS卫星信号控制被诱骗无人机向诱骗设定目标位置飞行;诱骗控制终端中设置强化学习模型,根据诱骗设定目标位置和无人机的实时状态设置奖励函数,将无人机飞行状态信息输入强化学习模型中,得到诱骗时延决策行为,对转发GNSS卫星信号进行时延控制;诱骗控制终端实时采集诱骗时延决策行为控制下被诱骗无人机的飞行状态,对当前诱骗时延决策行为进行奖励和惩罚,调整下一步的诱骗时延决策行为;根据实时诱骗时延决策行为和对应的无人机飞行状态在线训练和更新强化学习模型。本发明有效提高欺骗效率和成功率。

主权项:1.一种基于强化学习的GNSS转发式无人机诱骗时延控制系统,其特征在于,包括诱骗控制终端和被诱骗无人机;所述诱骗控制终端向被诱骗无人机转发时延受控的GNSS卫星信号控制被诱骗无人机向诱骗设定目标位置飞行;所述诱骗控制终端中设置强化学习模型,根据诱骗设定目标位置和无人机的实时状态设置奖励函数,将无人机飞行状态信息输入强化学习模型中,得到诱骗时延决策行为,对转发GNSS卫星信号进行时延控制;所述诱骗控制终端实时采集诱骗时延决策行为控制下被诱骗无人机的飞行状态,对当前诱骗时延决策行为进行奖励和惩罚,调整下一步的诱骗时延决策行为;并在诱骗计划实施过程中,根据实时诱骗时延决策行为和对应的无人机飞行状态在线训练和更新强化学习模型;所述诱骗控制终端中设置的强化学习模型采用actor-critic方法,包括策略网络和价值网络;其中,策略网络,根据输入的状态s产生并输出动作α;其中,状态s为被诱骗无人机的当前飞行状态s,动作α为控制无人机下一步飞行状态的诱骗时延决策行为;价值网络,基于接收的无人机飞行状态s给与之对应的动作α即诱骗时延决策行为进行打分,指导策略网络做出改进;强化学习模型采用在线训练的方式,在强化学习模型中设置经验回放数组,所述经验回放数组中包括四元组sj,αj,rj,sj+1;sj为第j个回合的状态,αj为第j个回合的动作,rj为第j个回合获得的奖励,sj+1观测的第j+1个回合的状态;把策略网络和价值网络当前参数记作θnow和ωnow,在进行策略网络和价值网络更新时,从经验回放数组中抽取该回合对应的四元组,进行下一回合的网络更新;价值网络和策略网络更新过程包括:1对策略网络进行预测:αj=μsj;θnow,αj+1=μsj+1;θnow式中,在当前的策略网络μsj;θnow中,用αj来更新θnow,执行动作αj之后,观测得到的奖励和新的状态sj+1,再根据更新后的策略网络μsj+1;θnow计算αj+1;而从经验回放数组中抽取的αj则是用上一个策略网络μsj;θold计算得到的,θold为策略网络的上一个参数;2对价值网络进行预测:训练价值网络的目标是让价值网络的预测逐渐接近真实价值函数;价值网络qs,α;ω输入是状态s和动作α,ω为价值网络参数,价值网络输出的价值,用于反应动作的好坏;预测中,qj=qsj,αj;ωnow,qj+1=qsj+1,αj+1;ωnow式中,在当前的策略网络qsj,αj;ωnow中,用αj、sj来更新ωnow,执行动作αj之后,观测得到的奖励和新的状态sj+1,再根据更新后的策略网络qsj+1,αj+1;ωnow计算qj+1;3计算TD目标和TD误差:TD目标:yj=rj+γ·qj+1;TD误差:δj=qj-yj;rj为第j个回合获得的奖励,γ为折扣率;4最后更新价值网络和策略网络:ωnow-λ·δj·▽ωqsj,αj;ωnow→ωnew;θnow+β·▽θμsj;θnow·▽αqsj,αj;ωnow→θnew;式中λ、β为学习率,使用网格搜索方法取值,通过比较不同学习率下的训练结果,选取表现最优的学习率;▽ω为价值网络的参数梯度,▽θ为策略网络的参数梯度、▽α为动作梯度。

全文数据:

权利要求:

百度查询: 北京航空航天大学 一种基于强化学习的GNSS转发式无人机诱骗时延控制系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。