首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于循环Flash强化学习的动态频谱与功率控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连理工大学

摘要:本发明属于无线通信领域,具体涉及一种基于循环Flash强化学习的动态频谱接入与功率控制方法。本发明引入一种创新的去中心化深度强化学习环境,通过使用循环Flash架构和双头输出算法,实现了频谱感知、接入和功率控制的联合优化。本发明充分利用了深度强化学习和循环神经网络的优势,构建了一个统一的框架来处理动态频谱接入中的多个关键问题。与现有技术相比,本发明的方法不仅优化了频谱和功率的分配,显著提高了通信质量和能效,还通过巧妙结合历史信息和即时观测,增强了对无线环境动态变化的适应能力,使决策更加精确和高效。

主权项:1.基于循环Flash的强化学习在无线通信中的动态频谱接入与功率控制方法,其特征在于,包括如下步骤:步骤1去中心化深度强化学习环境构建构建一个混合动态频谱接入DSA环境,其中,N个次级用户SUs在没有集中控制的情况下竞争访问M个频道;每个频道被分配给一个具有排他使用权的主用户PU以避免交叉干扰,从而创造了一个动态环境,频道可用性取决于PU的活动;次级用户能够感知频道占用情况,但可能会面临感知错误,从而导致评估不准确;当PU不活跃时,SU可以并发访问它们,可能会在它们之间引发干扰;如果SU基于错误的感知做出干扰PU的决策,这不仅会损害通信质量,还会引发处罚;每个频道的状态由PU活动决定,并被建模为一个马尔可夫过程,其转移概率反映了PU行为的随机性;每对用户由一个传输单元T和一个接收单元R组成;SU的任务不仅是选择频道,还要在其剩余能量储备的约束内确定适当的传输功率,这些能量随时间逐渐耗尽;混合DSA环境被映射到一个二维平面上;用符号P表示所有设备的位置集合;对于第n个SU,接收器和发射器的位置分别用和表示;类似地,第m个PU的接收器和发射器分别由和表示;索引n和m分别覆盖集合{1,2,...,N}和{1,2,...,M},N和M对应于SU和PU的总数; 其中和分别代表第n个SU的位置和第m个PU的位置,每次通信后,由于移动性,SU的接收器和发射器可能会改变其位置;第n个SU的接收器和发射器的更新坐标,由xnew,ynew表示,按公式2计算: 其中xold,yold表示移动前的原始坐标,vn代表速度,θn是移动方向,t是通信持续的时间;vn和θn被随机采样,以引入SU移动模式的变化性;选择WINNERII信道模型来基于大尺度参数估计路径损耗: 其中fc表示信道频率,d表示通信距离,PLd0、Aw、Bw分别是参考距离的路径损耗、路径损耗指数和频率依赖因子;在确定基本路径损耗后,进一步采用Rician信道模型来精细描述信号传播;Rician模型将接收信号视为视距LoS分量和多个非视距NLoS分散分量的组合;Rician信道系数h表示为: 其中gr和gt分别是接收和发送天线的增益,代表LoS分量,χ1从均匀分布U0,1中采样;χ2描述NLoS分量,从圆对称高斯分布N0,10-PL中采样;在混合DSA环境中,第n个SU在第m个信道上接收的信号由以下几个部分组成;来自SU自己发射器的期望信号与第m个信道的PU和在相同信道上运行的其他SU的干扰相结合;此外,信号还受到加性白高斯噪声的扰动;按如下方式计算第n个SU接收器的信号干扰加噪声比SINR: 其中n和k索引SU,m是PU的索引;其中,和分别表示第n个SU、第m个PU和第k个SU的第m个信道上传输功率;B是信道带宽,Nm是噪声功率频谱密度;表示第n个SU和第m个PU在第m个信道上的增益,表示第n个SU和第m个PU之间的信号路径损耗;表示第m个SU和第m个PU在第m个信道上的增益,表示第m个SU和第m个PU之间的信号路径损耗;表示第m个SU和第k个PU在第m个信道上的增益,表示第m个SU和第k个PU之间的信号路径损耗;利用香农的信道容量定理,第n个SU在第m个信道上的数据速率ρ定义为:ρn=log21+SINRn6在通信交互之后,需要更新SUs的能量状态以反映传输期间的消耗;这一更新由以下方程表示: 其中是通信交互前第n个SU的剩余能量,是更新后的剩余能量;为了适用于深度强化学习算法,将混合动态频谱接入DSA问题形式化为一个分布式部分可观测马尔可夫决策过程,由六元组定义,其中,表示状态空间,表示第n个次级用户的动作空间,T是状态转移函数,是第n个次级用户的奖励函数,是第n个次级用户的观测空间,Ω是观测函数;在每个时间步t,环境中的次级用户SU智能体观察状态选择动作接收奖励并转移到下一个状态st+1~Tst,at;在部分可观测性下,混合DSA环境中的SU代理必须根据其观察推断出真实状态,以做出最优决策,与信道主用户PU进行交互;状态空间包括设备位置P、主信道状态CS和SU的剩余能量E: 其中,CS∈{0,1},0表示信道空闲,1表示信道繁忙;E表示SU的剩余能量;观察空间提供第n个SU代理的局部观察,包括自身位置主信道状态和自身剩余能量en: 其中,是第m个信道被第n个SU观察的状态,en是第n个SU的剩余能量;动作空间允许选择一个信道cn和传输功率wn: 其中,选择的信道cn是离散的,而传输功率wn是连续的;状态转移函数:T使用随机模型来描述信道动态、用户移动和能量消耗;刺激用户对的信道状态和位置变化是通过在均匀分布上进行随机采样得到的;观察函数:Ω根据感知误差概率δ,将真实的信道状态与观测值关联起来,存在噪声;定义如下: 其中,I·是指示函数,U服从均匀分布U~Uniform0,1,δ是感知错误的阈值;奖励函数:平衡了通信质量和能量使用,对空闲时隙、干扰和电池耗尽进行惩罚,同时奖励吞吐量和效率;是根据状态、动作、信道条件以及两个超参数α和β提供每步的奖励,α是一个权衡参数,β调节能耗的影响;在不同场景下的定义如下:a.未选择信道或与活跃主用户产生干扰:表现为两个不同的负常数,分别表示对不期望事件的惩罚;b.通过空闲信道通信:使用以下公式计算: c.无碰撞通信:增加额外的奖励常数,强化这种结果的吸引力;对于阶段惩罚设ξ为电池容量,en为第n个SU的剩余能量;使用二进制指示器Ii跟踪en是否低于第i个阈值;阶段惩罚的计算如下: 其中,emax是次级用户总电量,rp是预定义的惩罚常数;当能量en低于某个阈值时,惩罚会逐渐增加;根据上述定义,第n个SU在有限时间步长T内从时间步t开始的期望累计折扣奖励表示为: 其中,0<γ<1是折扣因子,目标是找到一个策略π*,该策略最大化从一个周期开始时的期望奖励: 其中,是当t=0时的特例;argmax是求满足要求的最大值,代表在任意策略π下的数学期望;步骤2基于循环Flash的表征学习方法Flash结构主要由门注意力单元GAU组成,GAU首先将输入序列转化成非重叠的块来操作,接着在每个块内应用局部的次级注意力,以及跨块使用全局性注意力机制来搞笑捕捉长距离依赖性;在推导出注意力头的二次查询二次键线性查询和线性键后,GAU的计算分为两个部分;首先计算每个块的局部注意力 其中Vg分别代表块输入序列的值,b是偏置项;然后使用全局线性注意力汇总所有块的信息: 其中是全局先行注意力的输出,G是多头注意力总头数、是多头线性键、Vh是多头线性值;这些输出在最终投影前进行组合并经历门控: 其中Og是Flash结构输出,Ug是门控机制的中间输出,Wo是输出投影矩阵,⊙代表元素逐个相乘;基于线性版本的GAU构建的Transformer模型就是用于表征学习的Flash模型;基于循环Flash的表征学习过程如下:给定一个步长窗口,Flash结构将窗口内的历史交互信息统一表示为过去令牌超出窗口外的历史交互信息会被压缩至记忆令牌中;通过与步骤1中的环境实时交互,获取次级用户当前观测状态,并映射为当前令牌拼接所有信息,再经过位置编码,就可以得到Flash结构的输入: 其中,符号表示张量连接操作;输入经过Flash层处理后,得到输出其中代表Flash结构得到的表征输出,序列长度与过去令牌和当前令牌长度之和相等;的第一个令牌作被用作步骤3的输入,作为更新后的记忆令牌部分,被循环作为下一个输入序列的一部分,使得网络能够保持过去状态的紧凑历史;记忆令牌作为记忆机制,存储历史神经网络状态,而当前令牌捕获即时的观察、动作和奖励;步骤3双头输出深度强化学习算法设计一种双头架构,用于基于Actor-CriticAC的深度强化学习算法,使其能够以统一的方式处理离散的频谱接入和连续的功率控制动作;在获取步骤2中Flash结构学习到的表征信息后,传入基于AC的深度强化学习算法,得到算法中间变量;此时,双头输出深度强化学习算法分离输出层为离散输出层与线性输出层,分别输出次级用户该次交互应选择的功率大小与特定信道;其中,双头架构通过一个计算频谱接入概率的softmax离散头和一个输出功率控制动作均值和标准差的连续头,消除对功率动作进行离散化的需要;KL散度是基于AC的深度强化学习算法损失函数计算的关键,对离散和连续动作的KL散度计算方式进行定义;公式如下: 其中,KL1代表离散动作KL散度,和分别代表目标和在线策略网络的离散信道动作概率分布; 其中,KL2代表连续动作KL散度,μ′和μ表示连续功率动作概率分布的均值,σ′和σ表示标准差,分别用正态分布Nμ′,σ′和Nμ,σ表示;算法整体KL散度有两部分之和构成:KL=KL1+KL223将KL散度融入基于AC的深度强化学习算法的损失函数计算,并通过算法迭代优化,次级用户通过不断学习,得到该混合动作频谱接入环境下的最优通信策略;该策略能在保证低能量消耗的同时,获取极高通信质量。

全文数据:

权利要求:

百度查询: 大连理工大学 基于循环Flash强化学习的动态频谱与功率控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术