恭喜中国人民解放军海军航空大学杨秀霞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国人民解放军海军航空大学申请的专利基于逆向强化学习的无人机路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115826601B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211437557.2,技术领域涉及:G05D1/49;该发明授权基于逆向强化学习的无人机路径规划方法是由杨秀霞;张毅;王晨蕾;杨林;李文强;姜子劼;于浩设计研发完成,并于2022-11-17向国家知识产权局提交的专利申请。
本基于逆向强化学习的无人机路径规划方法在说明书摘要公布了:为了解决深度确定性策略梯度算法在规划无人机安全避碰路径时收敛速度慢、奖励函数设置困难等问题,本发明提出了一种基于逆向强化学习的无人机路径规划方法。首先,基于模拟器软件采集专家操纵UAV避障的演示轨迹数据集;其次,采用混合采样机制,在自探索数据中融合高质量专家演示轨迹数据更新网络参数,以降低算法探索成本;最后,根据最大熵逆向强化学习算法求解专家经验中隐含的最优奖励函数,解决了复杂任务中奖励函数设置困难的问题。对比实验结果表明,本发明能有效提升算法训练效率且避障性能更优。
本发明授权基于逆向强化学习的无人机路径规划方法在权利要求书中公布了:1.一种基于逆向强化学习的无人机路径规划方法,其特征在于,包括以下步骤: 步骤1.采集专家操纵UAV避障的专家演示轨迹数据集和自探索轨迹数据集; 步骤2.构建经验池,所述经验池由专家演示轨迹数据集和自探索轨迹数据集共同组成,并采用混合采样机制从两个数据集中分别采样形成最终训练样本; 步骤3.基于DDPG,引入专家经验损失函数指导DDPG参数的迭代更新,加快求解最优策略;所述引入专家经验损失函数指导的DDPG算法包括在线策略网络μs|θμ、在线值函数网络Qs,a|θQ、目标策略网络μ's|θμ'和目标值函数网络Q's,a|θQ'; 在线策略网络参数的优化具体包括以下步骤: 在线策略网络参数的优化则分为专家演示轨迹样本和自探索样本两部分进行; 对于专家演示轨迹数据,将在线策略网络基于当前专家状态预测的即时策略ai与真实专家策略的均方误差Jexpθμ作为专家经验损失引入,使得网络的预测输出策略不断趋于专家策略: 式中,为在线策略网络基于当前专家状态预测的即时策略; 令专家经验损失Jexpθμ对策略网络参数θμ求导,得其梯度值为 按照原始DDPG算法的在线策略梯度值更新参数θμ: 采用融合梯度更新在线策略网络的参数: 式中,λ为融合梯度调节因子; 步骤4.构造奖励函数,基于最大熵逆向强化学习算法求解奖励函数,即在已知专家演示轨迹的情况下,求解产生该轨迹的隐含概率模型; 步骤5.训练DDPG,直至DDPG在专家轨迹隐含的最优奖励函数下以最优策略完成飞行任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军海军航空大学,其通讯地址为:264000 山东省烟台市芝罘区二马路188号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。