买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东科技大学
摘要:本发明公开了一种基于深度强化学习的AUV多模移动数据收集方法,属于海洋监测水下无线传感器网络技术领域,包括如下步骤:步骤1、在目标区域中部署传感器节点并进行初始化;步骤2、AUV从传感器节点的初始坐标位置p0出发,获取当前时刻下AUV的相关数据,并将其组成路径规划系统时隙t的状态输入;步骤3、路径规划系统选择具体动作后,执行AUV多模转角优化算法,得到AUV下一步的航向调整角度;步骤4、AUV根据航向调整进行数据收集。本发明基于深度强化学习方法的多模数据收集能够优化收集数据的新鲜度和能量消耗,可以适用于各种水下应用的网络需求。
主权项:1.一种基于深度强化学习的AUV多模移动数据收集方法,其特征在于,包括如下步骤:步骤1、在目标区域中部署传感器节点并进行初始化;步骤2、AUV从传感器节点的初始坐标位置p0出发,获取当前时刻下AUV的相关数据,并将其组成路径规划系统时隙t的状态输入,然后系统做出动作决策,选择具体的动作;步骤3、路径规划系统选择具体动作后,执行AUV多模转角优化算法,得到AUV下一步的航向调整角度;步骤4、AUV进行转向调整后,以速度v直线行驶一个时隙t;若进入节点收集区域,则执行数据收集,并更新数据收集时间;若AUV行驶后越界、剩余能量不足,则重新执行步骤2;否则,重复执行步骤3-4,直到收集完所有节点的数据并返回初始坐标位置p0;所述步骤1的具体过程为:将M个传感器节点使用锚链静态部署在海床上,并根据其空间距离将所有传感器节点分为N个集群,部署的节点根据其不同的功能分为普通节点S={s1,s2,…,sM}、簇头CHs={c1,c2,…,cN}和汇聚节点;传感器节点的坐标位置为pi=xi,yii=1,2,…,M;每个节点均配备水下声学和光学调制解调器m={ac,op},ac表示选择声学调制解调器,op表示使用光学调制解调器,所有传感器节点具有相同的初始能量、传感和通信能力;AUV具有相同的通信能力,传感器节点的数据到达率服从参数为λ的泊松随机分布,当AUV访问cii=1,2,…,N时,簇头将其采样数据块打包成具有时间戳Ti的长度为Bi的数据包;所述步骤2中,相关数据包括指向角ψ0、剩余能量EAUV、距离每个簇头节点的距离di,t、节点采集状态采集信息后的AoI值δi,t;路径规划系统有∈的概率选择一个随机动作,1-∈的概率选择以往经验中期望奖励估计最大的动作,将以往经验中期望奖励估计最大的动作记为argmaxatQst,at;θ,其中,st表示当前状态,θ表示神经网络参数;动作集是a={ci,t,mi,t,cj,t|st},选择的动作包括时隙t当前目标CHsci,t、通信方式mi,t和时隙t下一目标CHscj,t;其中,cj,t∈Nr\ci,t,表示下一目标CHs只能从ci,t之外的未访问点的集合中选择,Nr表示未被访问簇头节点的集合;所述步骤2中,路径规划系统采用DQN深度强化学习算法进行动作决策,在执行一步动作后,设置奖励函数如下:当AUV到达簇头节点通信范围内时,得到一个和数据传输能耗相关的正奖励;当AUV到达循环结束时,得到一个奖励值J;除以上情形外,AUV得到一个和数据重要性以及距离相关的负奖励; 其中,表示是否选择水下声通信UAC作为通信方式,k1是常系数,ei表示簇头节点ci数据传输能耗,表示={0,1}表示是否选择水下光通信UOC作为通信方式,k2是常系数,bi表示是否收集到簇头节点ci的数据,bi=1表示收集,ηi表示簇头节点ci的重要性权重,表示AUV到簇头节点ci的欧氏距离;J是训练结束时的奖励,包括正常结束时的正奖励和异常结束时的负奖励; 其中,rout是常数,表示数据收集失败的惩罚,Δt表示AUV剩余能量与从当前位置到达目的地能量消耗的差值,pa表示AUV的位置,Ω表示AUV可移动区域范围,k3是常数,N表示簇头节点数,Ai表示簇头节点ci的AoI值,pa表示AUV的位置,p0表示初始坐标位置,Nr表示剩余未被访问簇头节点集合;所述步骤3中,采用AUV多模转角优化算法进行航向调整角度的过程为:设AUV在时隙t的点位置为pa,t,需要进行数据采集操作的簇头为CHs,Cac和Cop分别表示UAC和UOC的通信范围;设簇头节点ci为AUV当前目标CHs,cj为下一个目标CHs,在时隙t,AUV得到执行动作{ci,m,cj},确定AUV的转向角度;目的是在通信介质m={ac,op}的通信范围Cm内得到点使距离最短;若AUV与下一目标CHs的连线在当前目标CHs声通信范围之外,则AUV收集数据的悬停坐标通过以下方式获得: 其中,xa,t表示AUV在时隙t的x轴坐标值,dm表示通信介质m的通信半径,dai,t为AUV在时隙t时到当前目标CHsci的距离,dij为当前目标CHsci到下一个目标CHscj的距离;ya,t表示AUV在时隙t的y轴坐标值;那么,AUV在时隙t处的转向角表示为: 其中,ψm,t表示AUV在时隙t与目标悬停点pri,m的夹角,ψmax为AUV允许的最大转角范围,ψt表示AUV当前指向角;那么,根据目标位置和通信介质的不同,AUV的转向角在以下两种情况下进行调整:情况1:AUV从当前位置pa,t到下一个目标CHscj没有通过区域Cm;确定通信介质后,在Cac或Cop处求出点pri,ac或pri,op,使AUV轨迹长度最小;当选择簇头节点ci,cj和调制解调器后,AUV数据采集悬停位置pri,ac=xri,yri和转向角Ψac,t由式3和4计算;情况2:AUV通过当前目标CHsci的区域Cm,从当前位置pa,t到下一个目标CHscj,如果AUV穿过UAC通信区域Cac而不穿过通信区域Cop;如果通信模式为UAC,AUV数据采集悬停点是从ci到线段的垂足pri,ac;然后,AUV的转向角通过公式4获得;如果选择的通信介质是UOC,则与情况1类似地计算数据收集点和转向角;此外,如果AUV越过当前目标CHsci的UOC通信范围,则直接选择UOC作为通信介质。
全文数据:
权利要求:
百度查询: 山东科技大学 一种基于深度强化学习的AUV多模移动数据收集方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。