一种基于Q-learning的水下滑翔机路径规划方法

导航：龙图腾网> 最新专利技术> 一种基于Q-learning的水下滑翔机路径规划方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西北工业大学

摘要：本发明一种基于Q‑learning的水下滑翔机路径规划方法，属于水下滑翔机任务规划技术领域；该方法包括水下滑翔机Q学习要素设计与算法流程设计两部分，水下滑翔机Q学习要素包括水下滑翔机状态、动作集合、奖励函数、动作选择策略、Q值表初始化；算法流程设计依据学习要素进行。本发明的水下滑翔机在不断探索学习过程中，根据环境反馈的奖励值选择最优动作，最终规划出一条安全的最短路径。相较于传统路径规划方法，该方法不需要提前知道环境信息，因此该方法在不同的环境条件下有优良的迁移能力。针对水下滑翔机的运动特点，根据”V”字形运动方式，考虑俯仰、横滚、偏航，建立了一种新的动作选择集合和动作选择策略，保证了算法对于水下滑翔机平台的适用性。

主权项：1.一种基于Q-learning的水下滑翔机路径规划方法，其特征在于具体步骤如下：步骤1：建立水下滑翔机状态表示；步骤2：动作集合设计；依据水下滑翔机执行任务时设定的深度值h、俯仰角θ和航向角ψ，对m种典型的俯仰角{θ1,θ2，…θm}分别设计n种典型的航向动作选择集{ψ1,ψ2…ψn}；步骤3：奖励函数设计；通过环境反馈得到从起始点到目标点的最大累积奖励，建立奖励函数；步骤4：动作选择策略设计；首先判断俯仰角θ的大小，θ的选择范围为设定的m种典型俯仰角{θ1,θ2，…θm}；根据俯仰角大小，选择对应的n种典型的航向动作选择集ai＝{ψi1,ψi2,…ψin}；然后设定一个贪婪值ε，在每次选择动作时会产生一个随机值p∈0,1，用于决定下一步动作是随机选择还是策略选择，避免算法陷入局部最优；当p小于ε时，随机选择动作值；当p大于ε时，则选择动作集合当中Q值最大者作为此次选择的动作；步骤5：Q值表初始化方法设计；使用水下滑翔机坐标点与目标点的直线距离进行Q值的初始化，即距离目标点越远的点初始Q值越小；步骤6：给定水下滑翔机初始位置S，给定深度h，俯仰角θ＝θ1，航向动作集合{ψ1,ψ2…ψn}；步骤7：根据Q值表初始化方法，给Q值表赋初值；步骤8：根据动作选择策略，从俯仰角对应的动作选择集ai中选择动作a；步骤9：根据奖励函数得到立即的奖励值Reward和执行动作a后的新的滑翔机位置S’；步骤10：根据下式Q值更新函数更新对应于状态S与动作a的Q值；QS,a←1-αQS,a+α[r+γmaxQS',a]步骤11：判断水下滑翔机是否碰到障碍物，是则结束此轮学习，转到起始步骤6，否则继续进行下一步；步骤12：判断水下滑翔机是否到达目标区域，未到达则继续根据动作选择策略选择下一动作，否则继续进行下一步。

全文数据：

权利要求：

百度查询：西北工业大学一种基于Q-learning的水下滑翔机路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：公路软土路基超载预压时超载比的确定方法、装置及介质

下一篇：一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

相关技术

公路软土路基超载预压时超载比的确定方法、装置及介质

一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

一种塑管熔接装置

一种光伏构件

具有悬臂式叶轮的血液泵

电池、用电设备、制备电池的方法和设备

一种基于电子元器件控制的防卡死智能锁体

基于海洋渔业价值链的海产品汞金属总量核算方法和装置

新能源多场站柔性直流外送系统强度评估方法、装置

基于FPN的复杂环境典型树木高效智能识别方法及系统

一种轮胎X光检验机输送定位系统及工作方法

一种基于蜣螂优化算法的智能车轨迹跟踪控制方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于Q-learning的水下滑翔机路径规划方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务