恭喜合肥工业大学罗贺获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜合肥工业大学申请的专利基于强化学习的无人机智能决策方法、系统及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119647631B 。
龙图腾网通过国家知识产权局官网在2025-05-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510176233.5,技术领域涉及:G06N20/00;该发明授权基于强化学习的无人机智能决策方法、系统及存储介质是由罗贺;陈宇轩;王国强;李晓多;杨康;岳子轩;焦桂芬;邵永正设计研发完成,并于2025-02-18向国家知识产权局提交的专利申请。
本基于强化学习的无人机智能决策方法、系统及存储介质在说明书摘要公布了:本发明提供一种基于强化学习的无人机智能决策方法、系统及存储介质,涉及无人机技术领域。本发明中,一方面,通过无人机的探测结果可以更新无人机的决策方案,从而实时调度无人机编队执行任务时的规模,提高了防御效果。另一方面,设计基于微分博弈获取的界栅奖励,确保奖励机制能够准确反映博弈双方的目标达成情况,并通过强化学习的不断迭代优化,使得无人机能够逐步学习到在复杂环境下的有效无人机编队防御策略。
本发明授权基于强化学习的无人机智能决策方法、系统及存储介质在权利要求书中公布了:1.一种基于强化学习的无人机智能决策方法,其特征在于,包括:获取防御方无人机编队信息和无人机编队防御策略;防御方无人机编队包括多架无人机;所述无人机编队防御策略用于指示所述多架无人机的决策方案,所述决策方案包括防御动作和飞行方向;所述防御动作包括空中巡逻、呼叫友机和本机撤退;控制所述防御方无人机编队执行所述无人机编队防御策略;获取处于巡逻状态的巡逻无人机,并获取所述巡逻无人机的探测结果;根据所述探测结果生成决策方案更新模型;所述决策方案更新模型包括状态空间、决策方案、奖励回报和收益函数;所述状态空间由所述探测结果生成;所述奖励回报至少包括基于微分博弈获取的界栅奖励;求解所述决策方案更新模型,并根据模型解更新所述巡逻无人机的决策方案;根据更新后的决策方案更新所述无人机编队防御策略,并控制所述防御方无人机编队执行更新后的无人机编队防御策略;无人机智能决策方法所述求解所述决策方案更新模型,包括:根据所述状态空间获取攻击方无人机的无人机状态信息;根据所述无人机状态信息计算至少包括所述界栅奖励的奖励回报;根据所述奖励回报对所述收益函数进行求解;无人机智能决策方法所述无人机状态信息包括所述巡逻无人机与攻击方无人机的速度比;所述界栅奖励的获取过程,包括:基于所述速度比和所述防御方无人机编队的防御阵地的位置,采用微分博弈构建所述巡逻无人机的界栅,以构建所述巡逻无人机的追捕区和逃逸区;获取界栅奖励,包括: 其中,下标CCZ、CEZ分别表示位于巡逻无人机的追捕区和逃逸区内的所有攻击方无人机;表示在单个周期内,巡逻无人机与追捕区内所有攻击方无人机间的距离减少量;表示在单个周期内,巡逻无人机与逃逸区内所有攻击方无人机间的距离减少量;所述无人机状态信息还包括所述巡逻无人机击败的第一攻击方无人机数量和进入所述防御方无人机编队的防御阵地的第二攻击方无人机数量;根据所述无人机状态信息计算至少包括所述界栅奖励的奖励回报,还包括:根据所述无人机状态信息获取第一奖励回报,包括: 其中,Rtarget表示第一奖励回报;m1表示第一攻击方无人机数量,m2表示第二攻击方无人机数量; 表示击败攻击方无人机j的奖励分数,若攻击方无人机j在巡逻无人机的逃逸区内于该巡逻无人机呼叫友机后被击败,则奖励分数升级至第一基础奖励分数的预设倍率,否则保持为第一基础奖励分数; 表示攻击方无人机j进入防御阵地的奖励分数,若攻击方无人机j在巡逻无人机的追捕区内于该巡逻无人机呼叫友机后进入防御阵地,则奖励分数升级至第二基础奖励分数的预设倍率,否则保持为第二基础奖励分数;获取第二奖励回报,包括: 其中,Rtime表示第二奖励回报;m3表示巡逻无人机数量;计算奖励回报,包括: 其中,R表示奖励回报。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥工业大学,其通讯地址为:230009 安徽省合肥市包河区屯溪路193号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。