恭喜中国人民解放军海军航空大学杨秀霞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国人民解放军海军航空大学申请的专利基于增量式发育深度强化学习的无人机路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115686076B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211437558.7,技术领域涉及:G05D1/46;该发明授权基于增量式发育深度强化学习的无人机路径规划方法是由杨秀霞;张毅;王晨蕾;李文强;杨林;姜子劼;于浩;王宏设计研发完成,并于2022-11-17向国家知识产权局提交的专利申请。
本基于增量式发育深度强化学习的无人机路径规划方法在说明书摘要公布了:为了克服深度强化学习训练时间长、收敛速度慢的问题,本发明提出了一种基于增量式发育深度强化学习的无人机路径规划方法,引入了增量式发育知识库,对深度确定性策略梯度算法进行改进。首先,根据模糊匹配的思想建立威胁模式知识库,将飞行过程中遇到的密集动态障碍作为知识进行增量式存储,避免对相似障碍环境的重复训练。其次,在底层DDPG算法规划安全航路的基础上构建避障策略知识库,根据威胁模式直接输出避障策略,缩短训练时间。最后,搭建发育式的威胁–避障映射关系,实现“线上实时避障,线下自主寻优”,不断提升UAV避障性能。
本发明授权基于增量式发育深度强化学习的无人机路径规划方法在权利要求书中公布了:1.一种基于增量式发育深度强化学习的无人机路径规划方法,其特征在于,包括以下步骤:步骤1.构建UAV运动模型;步骤2.以DDPG网络模型为基础,采用Actor-Critic架构,利用DDPG神经网络架构连续输出决策动作;步骤3.引入了增量式发育知识库,训练改进DDPG网络模型,更新DDPG网络模型网络参数,规划出无碰撞飞行路径;所述步骤3中增量式发育知识库包括威胁模式知识库BM、避障策略知识库AM以及威胁–避障映射关系知识库BAM;三个知识库构成以下映射关系: 当UAV探测到威胁模式后,如果在威胁模式知识库中存在与探测到的障碍环境Bi相似的威胁模式,则根据威胁—避障映射关系直接输出对应避障策略,执行相应机动动作进行避障,并在线下继续搜寻最优避障策略;对于威胁模式知识库中不存在的威胁模式,即首次进行训练的威胁模式,则需要根据DDPG算法进行网络参数的训练,并将学习到的威胁模式、避障策略、映射关系作为新知识加入到知识库中;威胁模式知识库BM引入了模糊匹配的思想,根据增量判断函数判断知识库中是否存在相似威胁模式;对于知识库中未存储的威胁模式Bi,则将其作为新知识加入到知识库中,在不断积累知识的过程中实现威胁模式知识库的增量式发育;所述根据增量判断函数判断知识库中是否存在相似威胁模式,具体步骤如下:假设UAV遇到突发威胁环境B,该环境内存在多个动静态障碍物,其中任一单个障碍物可由式4表示:b=[d,ψd,θd,v,ψv,θv]T4式中:d为障碍物相对UAV的欧式距离;ψd为相对距离航向角;θd为相对距离爬升角;v为障碍相对UAV的运动速度;ψv为相对运动速度航向角;θv为相对运动速度爬升角;将上述参数用Ai,i∈{1,2,…,6}表示,即b=[A1,A2,A3,A4,A5,A6]T5式中,A1-A6分别表示障碍b的6个属性;引入模糊控制算法计算两个障碍间的相似度;分别将障碍物k与障碍物j的6个属性A1-A6转化为模糊控制器的模糊输入,再由隶属度函数得到属于输出论域集合的隶属度,选取面积平均法进行去模糊化,最终得到N个模糊集;其中,输入量为属性A1-A6的具体确定数值,输出量为障碍的威胁紧迫度;将上述两个障碍的障碍模式间的比较转换为模糊集之间的比较:如果障碍物k与障碍物j的所有属性均在同一模糊集内,则认为这两个障碍是相似的,可对照贴近度函数定量评估相似度数值;根据格贴近度算法构建贴近度函数如下: 式中:Aik、Aij分别表示障碍k和障碍j在属性Ai上的隶属度模糊集;当这两个障碍在6个属性上的贴近度均大于设定的贴近度阈值,即SimAik,Aij≥thi,i∈{1,2,…,6}时,则这两个障碍属于同一障碍模式;对于知识库中未存储的威胁模式Bi,则将其作为新知识加入到知识库中,在不断积累知识的过程中实现威胁模式知识库的增量式发育,具体步骤如下:定义威胁模式为当前障碍环境中,UAV感知范围内所有障碍物障碍模式的集合,即B=[b1,b2,…,bm]T7假设有障碍环境B1=[b1,b2,…,bm]T,B2=[b1,b2,…,bn]T,如果B1中从b1到bm的任一障碍模式bj均能在B2中找到相应的6个属性的贴近度均大于贴近度阈值thi的障碍模式,则认为威胁模式B1可用B2完全代替,无需再次训练;否则会将威胁模式B1作为新学习到的威胁模式添加到威胁模式知识库中,持续补充知识库;得到威胁模式知识库存储的知识为DDPG算法训练过程中遇到的所有威胁模式的集合:BM=[B1,B2,…,Bm]8在DDPG神经网络训练威胁模式Bi的过程中,网络不断迭代持续更新网络参数,最终得到在威胁模式Bi下的最优网络参数;避障策略知识库将对应威胁模式Bi的最优网络参数作为避障策略知识进行存储:Ai={θu,θQ}9其中,θu是在线actor网络参数,θQ是在线critic网络参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军海军航空大学,其通讯地址为:264000 山东省烟台市芝罘区二马路188号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。