首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于经验和推演模型的无人机对抗决策方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院大学

摘要:本发明公开了一种基于经验和推演模型的无人机对抗决策方法,通过建立初始对抗轨迹数据集训练预决策模型、世界模型获得最优对抗决策,构建第二数据集,采用第二数据集训练预决策模型获得优化预决策模型,由优化预决策模型输出当前时刻最优动作,无人机根据最优动作进行飞行控制。本发明公开的方法,通过预测未来的状态和奖励,能够充分考虑决策对环境的长期影响,从而让无人机做出更利于长期的决策,通过考虑长期决策,能够做出优于对抗轨迹数据集决策的决策,从而实现性能提升。

主权项:1.一种基于经验和推演模型的无人机对抗决策方法,其特征在于,包括以下步骤:S1、建立初始对抗轨迹数据集;S2、构建用于预测轨迹中的状态动作对序列的第一模型,采用初始对抗轨迹数据集对第一模型进行训练,获得预决策模型;构建用于预测对抗轨迹中状态、动作、奖励组序列的第二模型,采用初始对抗轨迹数据集对第二模型进行训练,获得世界模型;S3、设置仿真条件,采用预决策模型进行在线决策仿真,获得过去时刻奖励、当前时刻最优动作和当前时刻次优动作;S4、将过去时刻状态、过去时刻动作、过去时刻奖励、当前时刻状态和当前时刻最优动作输入世界模型,获得当前时刻最优动作的奖励值以及下一时刻最优状态;将过去时刻状态、过去时刻动作、过去时刻奖励、当前时刻状态和当前时刻次优动作输入世界模型,获得当前时刻次优动作的奖励值以及下一时刻次优状态;S5、分别以下一时刻最优状态、下一时刻次优状态作为预决策模型的输入项之一,由预决策模型输出获得后续时刻最优动作、次优动作,将获得的最优动作和次优动作作为世界模型的输入项之一,由世界模型输出后续时刻的状态和下一时刻的奖励;S6、多次重复S4、S5进行N步预测,获得2N条未来路径;S7、获取每条路径的累加奖励,挑选出累加奖励最大的路径,将该路径的最初的动作作为当前状态的决策;S8、在每个时刻重复S4~S7,获得完整时刻的在线对抗决策;S9、改变仿真条件,多次重复S3~S8,获得多个完整时刻的在线对抗决策,组合为第二数据集,采用第二数据集训练预决策模型和世界模型,获得优化预决策模型和优化世界模型;将实际无人机对抗条件输入优化预决策模型,由优化预决策模型输出当前时刻最优动作,无人机根据最优动作进行飞行控制。

全文数据:

权利要求:

百度查询: 中国科学院大学 基于经验和推演模型的无人机对抗决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。