首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于智能反射面的空地移动网络携能公平通信方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:河南大学

摘要:本发明提出了一种基于智能反射面的空地移动网络携能公平通信方法,步骤如下:建立基于多无人机和智能反射面的空地移动网络架构;建立无线功率传输模型;根据无人机的动力学模型和通信模型建立无人机的能源消耗模型;利用智能反射面重构无人机和地面用户之间的信道状态,建立无线通信模型;建立公平通信模型;构建关于公平吞吐量和能源消耗的判断矩阵,确定公平加权吞吐量和能源消耗两个子目标的权重系数;建模为公平吞吐量和无人机剩余能量最大化的多目标整数非凸优化问题,通过多智能体深度强化学习求解复杂的多目标优化问题。本发明基于多智能体深度强化学习优化无人机位置和智能反射面的相位,为地面用户提供公平通信并对无人机无线充电。

主权项:1.一种基于智能反射面的空地移动网络携能公平通信方法,其特征在于,其步骤如下:S1:建立基于多无人机和智能反射面的空地移动网络架构,空地移动网络架构中包含K个地面移动用户和D个无人机;S2:根据无线功率传输技术建立无线功率传输模型:利用智慧灯杆作为能量源,采用智慧灯杆-无人机的直接传输以及智慧灯杆-智能反射面-无人机的间接传输两种传输路径,实现对无人机的无线充电;S3:根据无人机的动力学模型和通信模型建立无人机的能源消耗模型;S4:利用智能反射面重构无人机和地面用户之间的信道状态,建立无线通信模型;S5:建立公平通信模型:考虑通信效率和用户之间的公平性建立公平通信模型,在保证用户公平性的前提下最大化系统吞吐量;S6:根据用户服务质量等级构建关于公平吞吐量和能源消耗的判断矩阵,求解判断矩阵的特征值和特征向量并对其进行归一化,确定公平加权吞吐量和能源消耗两个子目标的权重系数;S7:把无人机携能通信问题建模为一个公平吞吐量和无人机剩余能量最大化的多目标整数非凸优化问题,并重新描述为马尔可夫博弈过程,通过多智能体深度强化学习求解复杂的多目标优化问题,更新无人机的位置和智能反射面的相位;所述步骤S7中多目标整数非凸优化问题为: 其中,udt表示无人机的位置;表示加权吞吐量和剩余能量组成的效用函数;Tt表示任务执行时间;Et0表示无人机初始时的电量;Emax表示无人机充满电时的最大电池容量;EdTt表示无人机任务结束时剩余的电量;Emin表示无人机执行完任务之后安全返回所需的最小电量;γdk表示传输速率最小阈值;uit和ujt分别表示无人机i和j在t时刻的位置;xdt、xkt、ydt、ykt分别表示无人机和地面移动用户的坐标,Xmin、Xmax、Ymin、Ymax为整个矩形任务区域的边界值;把整个任务执行时间划分为Nt个时隙,每个时隙的长度为将连续问题转化为离散问题: 把离散问题重新描述为一个多智能体的马尔可夫博弈过程<S,A,P,R,γ>,其中,S为状态集合,A为动作集合,R为奖励函数,P为状态转移概率函数,γ为奖励折扣因子;所述多智能体深度强化学习的方法为:在时隙n∈[0,Nt]内状态其中,表示无人机在时隙n的坐标,表示地面移动用户在时隙n的坐标,表示无人机的剩余能耗,Θn表示智能反射面的相位;在时隙n内动作其中,distdn∈[0,Vdtδt]表示无人机基站在时隙n内飞行的距离;表示无人机基站在时隙n飞行的方向;ΔΘ智能反射面的相位的变化量;Vdt无人机的飞行速度;奖励函数为r=r1+r2-ξ1p1-ξ2p2-ξ3p3;其中,公平吞吐量覆盖奖励ed,k=1表示用户k可以被无人机d覆盖,反之ed,k=0;惩罚:当满足以下情况时,无人机基站将受到惩罚:1无人机飞出任务边界区域,其中Xmin、Xmax、Ymin、Ymax表示任务区域范围横坐标和纵坐标的取值;2无人机i与无人机j发生碰撞,||uin-ujn||2≥dmin,其中dmin表示安全距离阈值;3当无人机的能耗低于设定值,Edt≤Emin;通过定义二进制变量ξl∈{0,1}表示是否违反上述情况l;如果ξl=1,l∈{1,2,3}表示违反情况l,给予无人机固定惩罚pl,l∈{1,2,3};在马尔可夫博弈过程中,智能体通过最优自身策略π最大化奖励函数,离散问题重新描述为 其中,表示求期望运算,s和a是所有智能体的状态空间和动作空间的拼接;基于门控单元的信息共享机制更新无人机的状态,输入策略网络获得无人机需要执行的动作;构建状态分解-扩展-聚合的Actor网络进行状态信息的分解和降维,然后利用多头注意力机制对处理之后的子状态按照不同的相关程度进行状态聚合;所述基于门控单元的信息共享机制的实现方法为:通过存储容量为M的存储器建立状态信息共享,存储器用来存储无人机的集体状态信息m∈RM;每一个无人机的策略变为每一个无人机把自身的状态sd映射到一个表示当前状态的嵌入向量:其中,是网络参数为的神经网络;无人机执行读操作提取存储在存储器中的相关信息,通过生成一个上下文向量hd来捕捉嵌入向量ed的时空信息: 其中,表示线性映射网络的参数,H、E分别表示上下文向量hd和嵌入向量ed的维度;联合智能体观测值的嵌入向量ed、上下文向量hd以及当前存储器中的内容m作为输入学习一个门控机制: 其中,σ·是sigmoid函数,[ed,hd,m]表示三个向量的拼接,kd作为权重因子;通过门控机制调节从存储器中读取的信息rd=m⊙kd;其中,⊙表示哈达玛积;智能体根据自身状态值的编码和当前共享的存储器信息,通过非线性映射产生一个候选存储内容: 其中,是网络参数;输入门gd用来调节候选存储器中的内容,fd决定需要保留和丢弃的信息,且: 其中,σ表示sigmode激活函数、分别表示需要训练的神经网络参数;然后无人机d通过对新旧信息的加权组合生成新的更新信息:m'=gd⊙cd+fd⊙m;无人机把当前自身状态的编码和从存储器中读取的信息作为策略网络的输入,策略网络输出无人机需要执行的动作其中,rd表示从存储器中读取的信息,表示策略函数;所述Actor网络的状态分解将不同类型的状态信息进行分解,采用维度扩展技术把所有状态信息扩展至相同的维度;聚合是把分解之后的各个子状态根据不同的相关程度进行聚合并线性映射为一个低维的输入向量;基于自注意力机制的状态信息选择策略进行状态信息的选择,把经过状态分解、维度扩展以及线性映射处理之后的位置状态信息、剩余电量状态信息以及从存储器中读取的状态信息作为三个向量a1、a2和a3,自注意力机制的计算方法为:qi=WqI,Q=q1,q2,q3,I=[s1,s2,md]ki=WkI,K=k1,k2,k3,I=[s1,s2,md]vi=WvI,V=v1,v2,v3,I=[s1,s2,md]其中,Wq、Wk和Wv分别表示全连接层神经网络的权重参数;qi、ki和vi分别表示注意力机制中的查询、键和值;Q、K、V分别表示查询矩阵、键矩阵和值矩阵;I是由a1、a2和a3三个向量组成的矩阵;注意力分数表示为:αscore=SoftmaxKTQ;注意力机制的输出为:B=αscore·V,B={b1,b2,b3};通过线性映射处理注意力机制的输出:Sinput=FCB;其中,Sinput表示策略网络的输入,FC表示由全连接层神经网络实现的线性映射。

全文数据:

权利要求:

百度查询: 河南大学 基于智能反射面的空地移动网络携能公平通信方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。