首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于MADDPG的多RIS通信网络速率提升方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京理工大学

摘要:本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,属于无线通信中的频谱资源分配技术领域。针对多小区下行场景中的多RIS部署资源分配问题,本发明通过遍历所有用户,表述用户接收信号、信干噪比以及信号干扰参数;以各小区基站作为深度强化学习的智能体,以用户和速率及WiFi接入点信号干扰作为状态,以RIS反射系数以及BS与用户间的波束赋形矢量作为动作,以用户和速率表述奖励,构建目标状态预测模型;对预测模型采用MADDPG方法进行学习与更新直至奖励收敛,收敛时的系统参数能够应用于多小区通信场景中。本发明可应用于应急通信和军事通信等领域,用以提供最大化的数据传输和速率。

主权项:1.一种基于MADDPG的多RIS通信网络速率提升方法,其特征在于:包括如下步骤,步骤一:遍历所有小区的UE以及AP,分别计算UE在时刻t的接收信号、信干噪比和AP在多小区通信系统中在时刻t受到的干扰,并建立优化模型;步骤一的实现方法为,步骤1.1遍历所有UE,计算多小区蜂窝通信系统中所有UE在时刻t的接收信号和信干噪比,具体为:遍历l,k,计算各小区中所有UE在时刻t的接收信号和信干噪比;其中,UEl,k在时刻t接收到的信号,记为yl,k[t];UEl,k在时刻t的信干噪比,记为SINRl,k[t];k的取值范围为1到Kl;t表示时间变量;其中,UEl,k在时刻t接收到的信号如式1所示: 其中,代表RIS在时刻t的反射系数矩阵,表示维度大小为N×N的复数集合,具体表示为βr,1,...,βr,N∈[0,1]为第r个RIS各元素的幅度反射系数,θr,1,...,θr,N∈[0,2π为RIS各元素的相位偏移,j为虚数单位;表示第i个小区的BS和第r个RIS之间的信道,表示第i个小区的BS和第l个小区的第k个用户UEl,k之间的信道,表示维度大小为1×M的复数集合;表示第l个小区的BS和第r个RIS之间的信道,表示维度大小为N×M的复数集合;表示第r个RIS和第l个小区的第k个用户UEl,k之间的信道,表示维度大小为1×N的复数集合;其中,l∈{1,...,L},r∈{1,…,R},k∈{1,...,Kl};wl,k[t]表示第l个小区内的BS与第l个小区内第k个UE间在时刻t的波束赋形向量,wl,p[t]表示第l个小区内的BS与第l个小区内第p个UE间在时刻t的波束赋形向量,其中p∈{1,...,Kl};wi,q[t]表示第i个小区内的BS与第i个小区内第q个UE在时刻t的的波束赋形向量,其中q∈{1,...,Ki};xl,k[t]表示第l个小区内第k个UE在时刻t的符号,xl,p[t]表示第l个小区内第p个UE在时刻t的符号,xi,q[t]表示第i个小区内第q个UE在时刻t的符号,且每个UE的符号具有单位功率,即:Ε[|xl,k[t]|2]=1,k=1,...,K;第l个小区内,BS向Kl个UE发送的信号为且表示维度大小为Kl×1的复数集合;sa,b[t]为第a个小区内第b个AP在时刻t的信号,且所有sa,b[t]的功率相同,均为其中a∈{1,...,L},b∈{1,...,Ja};表示第a个小区内第b个AP与第l个小区内第k个UE之间的信道,表示维度大小为1×1的复数集合;表示第a个小区内第b个AP与第r个RIS之间的信道;nl,k[t]表示为第l个小区内第k个UE在时刻t的高斯白噪声,满足其中,代表复高斯分布,是该高斯分布的方差;第l个小区内第k个UE在时刻t的信干噪比用式2表示: 其中, 表示UEl,k在时刻t接收到的信号中的有效部分; 表示UEl,k在时刻t接收到的信号中所有小区内其余UE对于UEl,k的干扰; 表示UEl,k在时刻t接收到的信号中所有小区内所有AP对于UEl,k的干扰;其中,信干噪比,即signal-to-interference-noise-ratio,SINR;步骤1.2遍历所有小区内的所有AP,得到所有AP在多小区通信系统中在时刻t受到的干扰,具体为: 其中,表示第a个小区的BS和第l个小区的第j个WiFi节点APl,j之间的信道;表示第r个RIS和第l个小区的第j个WiFi节点APl,j之间的信道;表示第a个小区的BS和第r个RIS之间的信道;其中,j∈{1,...,Jl};步骤1.3基于步骤1.1计算的接收信号、信干噪比以及步骤1.2得到的干扰,构造以最大化多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型,具体通过公式4所示的优化模型构造: 其中,t表示时间变量,Ith表示AP受到来自多小区蜂窝通信系统干扰的最大阈值,Wl[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所以UE的波束赋形矩阵,满足TrWl[t]Wl[t]H表示Wl[t]的功率,P表示Wl[t]的最大功率阈值,上标H代表对矩阵的共轭转置变换;公式4是以多小区蜂窝通信系统对所有小区内AP的干扰小于一定阈值,所有小区内的BS与UE间波束赋形矩阵功率小于一定阈值以及所有RIS反射系数矩阵的相位偏移矢量满足[0,2π]的取值条件为约束条件,以提升多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型;步骤二:根据步骤一确定的优化模型,以各小区BS作为深度强化学习的智能体,确定状态模型、动作模型以及奖励模型,构建深度强化学习中多智能体目标状态预测模型;步骤二的实现方法为,步骤2.1以各小区UE数据传输和速率以及AP受到的信号干扰作为智能体的状态模型,具体为: 其中,t表示时间变量,l表示小区编号,Kl表示小区l内的UE总数,Jl表示小区l内的AP总数,k表示小区内UE的编号,j表示小区内AP的编号,sl[t]表示智能体l即第l个小区内的BS在t时刻的状态,Rl,k[t]=log21+SINRl,k表示第l个小区内的第k个UE在t时刻的数据传输速率,Il,j[t]表示第l个小区内的第j个AP在t时刻受到的干扰;步骤2.2以各小区RIS反射系数以及RIS与用户间的波束赋形矢量作为智能体的动作模型,具体为: 其中,t表示时间变量,l表示小区编号,al[t]表示智能体l即第l个小区内的BS在t时刻的状态,Wl[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所有UE的波束赋形矩阵,满足Θl[t]表示智能体l即第l个小区内的RIS在t时刻的反射系数矩阵;步骤2.3以各小区用户和速率表述奖励模型,具体为: 其中,t表示时间变量,l表示小区编号,Jl表示小区l内的AP总数,j表示小区内AP的编号;Rl[t]表示小区l内的所有UE的和速率,即步骤三:根据深度强化学习中的多智能体深度确定性策略梯度方法,对步骤二得到的多智能体目标状态预测模型进行初始化操作;步骤三的实现方法为,步骤3.1分别以参数和随机初始化Actor当前网络和Critic当前网络其中,sl[t]是状态,al[t]是动作;是Actor当前网络的参数;是Critic当前网络的参数,l∈{1,...,L};步骤3.2以参数和初始化Actor目标网络μl'和Critic目标网络Ql';其中,和分别是目标网络μl'和Ql'的参数,表示将赋值给表示将赋值给步骤3.3初始化每个智能体的经验回放集合的容量D即mini-batch的大小并清空集合设训练的episode总数为E;设t∈{1,...,T},其中T为每个episode采样时刻数;初始化衰减因子γ,软更新系数τ;步骤四:使用深度强化学习中的多智能体深度确定性策略梯度方法,根据步骤二得到的多智能体目标状态预测模型以及步骤三的初始化内容进行模型训练,按顺序对于episode从1到E执行操作,有:基于高斯过程初始化最初的状态s[0]=[s1[0],...,sL[0]],并设置初始奖励其中,下标l∈{1,...,L}表示第l个智能体;遍历所有的时刻t从0到T;步骤五:将各小区BS与UE间的波束赋形矢量以及RIS反射系数配置为步骤三得到的最优动作,使得多小区蜂窝通信系统所有用户数据传输和速率即总吞吐量得到提升;步骤四的实现方法为,步骤4.1对于所有的智能体l∈{1,…,L},基于当前的动作在Actor当前网络,网络参数为选择对应的动作步骤4.2执行所有智能体的动作a[t]=[a1[t],...,aL[t]],得到对应的奖励r[t]=[r1[t],...,rL[t]]以及下一状态s'[t]=[s'1[t],...,s'L[t]];其中,下标l∈{1,...,L}表示第l个智能体,s'[t]是基于s[t]、a[t]的下一状态;步骤4.3将四元组{s[t],a[t],r[t],s'[t]}存入经验回放集合其中,s[t]=[s1[t],...,sL[t]]是时刻t所有智能体的状态,a[t]=[a1[t],...,aL[t]]是时刻t所有智能体的动作,r[t]=[r1[t],...,rL[t]]是时刻t所有智能体的奖励,s'[t]=[s'1[t],...,s'L[t]]是时刻t所有智能体的下一状态;步骤4.4如果集合当前大小小于D,则令s'[t]=s[t]后执行步骤4.2,否则执行步骤4.5;步骤4.5对于所有的智能体l∈{1,...,L},进行如下步骤:1从经验回放集合中随机抽取一小批个数为Z的样本{sz[t],az[t],rz[t],s'z[t]};其中,由采样得到的D个样本中第z个样本在时刻t对应的状态记为sz[t],且第z个样本在时刻t对应的动作记为az[t],且第z个样本在时刻t对应的奖励记为rz[t],且第z个样本在时刻t对应的下一个状态记为s'z[t],且z的取值范围满足z∈{1,...,Z};2使用Critic的目标网络计算当前目标Q值,即 其中,Ql'表示智能体l的Critic目标网络,参数为a'l[t]是Actor的目标网络基于状态得到的动作,其中l的取值范围为l∈{1,...,L};3通过最小化损失函数更新Critic当前网络的参数;其中,Ql表示智能体l的Critic目标网络,参数为fz[t]是步骤2中求得的当前目标Q值;4使用抽样策略梯度PG方法更新Actor的当前网络的参数 其中,l∈{1,…,L};Ql表示智能体l的Critic目标网络,参数为μl表示智能体l的Critic目标网络,参数为表示智能体l的期望收益的梯度;表示Actor当前网络对参数在状态sz[t]时求导; 表示Critic当前网络对参数在状态等于sz[t],动作求导;步骤4.6使用πμ′←τπμ+1-τπμ′以及πQ′←τπQ+1-τπQ′更新每个智能体l∈{1,…,L}的Actor和Critic的目标网络参数;其中,τ表示更新参数;πμ′←τπμ+1-τπμ′表示将τπμ+1-τπμ′赋值给πμ′;πQ′←τπQ+1-τπQ′表示将τπQ+1-τπQ′赋值给πQ′;l∈{1,…,L};步骤4.7更新状态s[t]=s[t+1]。

全文数据:

权利要求:

百度查询: 北京理工大学 一种基于MADDPG的多RIS通信网络速率提升方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。