买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东莞理工学院
摘要:本发明公开了一种基于信息年龄的空天地一体化无人机物联网数据采集方法,构建无人机辅助的空天地一体化物联网系统,构建无人机信道模型、信息年龄模型,建立基于信息年龄的无人机辅助空天地一体化物联网数据采集模型,将问题转换为马尔可夫问题,引入神经网络解决状态高维问题,引入深度强化学习算法训练无人机寻找最优采集点,引入匹配理论将无人机与物联网设备进行配对。本发明针对信息采集实时性需求,寻求无人机飞行参数的优化配置,推演信息年龄、系统容量、能量利用率等性能指标之间的制约关系,有效提高信息采集实时性,降低系统管控复杂度,提升人工智能技术在物联网领域的应用水平。
主权项:1.一种基于信息年龄的空天地一体化无人机物联网数据采集方法,其特征在于包含以下步骤:步骤一:构建无人机辅助的空天地一体化物联网系统;步骤二:构建无人机信道模型、信息年龄模型;步骤三:建立基于信息年龄的无人机辅助空天地一体化物联网数据采集模型;步骤四:将问题转换为马尔可夫问题;步骤五:引入神经网络解决状态高维问题;步骤六:引入深度强化学习算法训练无人机寻找最优采集点;步骤七:引入匹配理论将无人机与物联网设备进行配对;所述步骤一具体为:构建无人机辅助的空天地一体化物联网系统,系统中包含低轨卫星,低轨卫星与多个无人机连接,无人机与多个物联网设备连接,物联网设备产生的数据具有随机的时间分布,且产生的数据量服从泊松分布,每辆无人机从初始位置飞到预定位置,收集数据并传送给卫星,无人机在数据采集时配置为悬停模式;所述步骤二具体为:无人机与物联网设备之间的数据传输基于视线,无人机n与物联网设备m之间的路损为: 其中,dm,n表示无人机n与物联网设备m之间的距离,f表示中心频率,c表示光速,ηLoS表示由人造结构引起的阴影和散射造成的附加损失;物联网设备m到无人机n的数据加噪声比表示为: 其中,pm表示物联网设备m到无人机的功率,σ2表示高斯白噪声功率;物联网设备m到无人机n的传输速率通过以下公式计算:Rm,n=Blog21+Γm,n其中,B表示带宽;引入信息年龄来描述无人机接收到的感知数据的新鲜度;假设当第一个匹配的物联网设备生成数据时,无人机开始飞向最终位置;其他匹配物联网设备在无人机飞行时间内随机生成数据;当无人机到达目标点时,开始发送数据;因此,信息年龄由无人机的飞行时间和物联网设备到无人机的传输时间组成;我们用Amt表示在时间t接收到的物联网设备m的数据的信息年龄:Amt=t-umtumt表示物联网设备m生成数据的时间;所述步骤三具体为:要解决的最小化系统信息年龄问题总结为最优化问题为: 其中,是在时间t无人机n与物联网设备m的匹配变量,分别表示时间t无人机飞行位置的水平和垂直坐标;约束C1表示如无人机n与物联网设备m直接进行匹配,则为1,反之为0;约束C2和C3表示无人机与物联网设备之间的一对多匹配;约束C4表示半径为S的无人机飞行区域;所述步骤四具体为:构建一个结合深度强化学习和匹配算法的框架,以找到无人机的数据采集位置和配对信息;在匹配过程中,我们将代理表示为为了实现一对多的数据采集,引入虚拟代理到每个无人机中,并将每个代理与一个物联网设备进行配对;无人机在相同高度飞行,深度强化学习用于训练无人机的位置,在强化学习中,代理通过与环境交互获得最优策略;马尔可夫决策过程由四元数组组成<S,A,P,R>,分别表示状态空间、动作空间、状态转移概率以及奖励;状态:表示时间t时无人机的位置;动作:at=dt,θt,at∈A,其中dt和θt分别表示时间t时无人机的飞行距离和方向,并且我们将其进行了离散化,以限制选择;奖励:rt定义为时间t时信息年龄的负值rt=-Amt;为了使网络的总体信息年龄最小化,利用最佳无人机位置探索每个代理和物联网设备之间的最小信息年龄,因此,上述最优化问题转换为使累计奖励最大化: 其中,γ∈[0,1]是未来奖励的折扣因素;在政策π下,用于在状态st下选择动作at的Q值函数定义为 然后得到最优动作-状态值Q*st,at定义为在st状态下采取行动后获得的最大期望回报;根据Bellman公式,Q*st,at表示为: 最优策略通过以下方法获得: 所述步骤五具体为:使用深度强化学习解决关于系统模型中高维状态空间的问题;深度Q网络中引入了经验回放和目标网络,在体验重放机制中,代理与环境之间的交互顺序<st,at,rt,st+1>存储在体验重放缓冲区D中;学习过程中,将从D中均匀采样小批量序列,并使用随机梯度下降训练深度神经网络,以在高位状态空间中逼近Q函数;用θ参数化神经网络,使Q函数近似为: 对于参数梯度下降,定义了神经网络的损失函数,表示为: 其中,θ-和θ分别表示单独目标网络和在线网络的参数;所述步骤六具体为:为找到无人机的最佳采集点,使用SAC算法进行训练;SAC采用一种随机策略,通过最大熵来实现,防止任何有用的行为或轨迹被忽略;代理通过开发更多可行解来更充分地探索状态空间,以更好的优化性能和学习效率完成任务;最优策略是通过利用熵来实现的: 其中是政策熵,α表示平和熵和系统奖励重要性的温度参数;状态值函数Vst和动作-状态值函数Qst,at表示为: 该算法通过参数θ和φ构造了两个动作-状态值函数和策略πφ;在每个时隙,演员网络和评论家网络通过从体验重放缓冲区中统一采样小批量来更新;评论家网络的损失函数公式如下: 其中定义为: 当训练策略πφ时,演员网络的损失函数为: 由于温度参数α在训练中也有十分重要的影响,所以采用自动熵调整方案;在无人机初始探索空间的状态下,α增加以探索更多的空间,然后随着未探索空间的减少而降低,通过以下方法将温度损失降至最低: 训练后,代理将获得与每个物联网设备之间的信息年龄最小值,并将其传输到卫星中进行匹配;所述步骤七具体为:根据接收到的信息年龄值,卫星按照信息年龄的递增顺序为每个代理和物联网设备构建偏好列表和然后通过GS算法对无人机和物联网设备进行配对;为了保证无人机代理的位置相同,首先将选择具有最小信息年龄的代理作为主代理,辅助代理将选择距主代理训练位置最近的物联网设备;GS算法的具有申请和拒绝规则,总结如下:定义1:申请规则:对于代理Vk∈V,它将向偏好列表中最喜爱的物联网设备提出连接申请;定义2:拒绝规则:对于接收到连接申请的物联网设备Im∈I,如果存在更好的匹配候选,则会拒绝代理,否则,代理将保留为匹配候选;根据以上规则,GS算法的匹配步骤如下:1将V划分为主代理集合VP和辅助代理集合VA;2每个主代理根据自己的偏好列表向最喜爱的物联网设备发出连接申请,然后每个物联网设备Im根据自己的偏好列表选择喜爱程度最高的代理,并拒绝其余代理;每个辅助代理随着学习出的最有位置到主代理之间的距离调整自己的偏好列表,然后执行与步骤2中相同的程序,直至达到稳定匹配。
全文数据:
权利要求:
百度查询: 东莞理工学院 基于信息年龄的空天地一体化无人机物联网数据采集方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。