恭喜杭州电子科技大学张煜培获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州电子科技大学申请的专利一种基于深度确定性策略的跳频智能抗干扰决策方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116073856B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211512206.3,技术领域涉及:H04B1/715;该发明授权一种基于深度确定性策略的跳频智能抗干扰决策方法是由张煜培;赵知劲设计研发完成,并于2022-11-29向国家知识产权局提交的专利申请。
本一种基于深度确定性策略的跳频智能抗干扰决策方法在说明书摘要公布了:本发明公开了一种基于深度确定性策略的跳频智能抗干扰决策方法。本发明包括:步骤1、建立双变跳频通信系统模型;步骤2、建立双变跳频通信系统抗干扰决策模型;步骤3、基于强化学习的优化问题转换;步骤4、基于HDP‑DDPG的双变跳频通信系统抗干扰决策;步骤5、训练HDP‑DDPG网络,输出抗干扰决策模型。本发明一方面通过回放更多立即回报高和时间差分误差大的经验来训练模型,使模型预测更精准;另一方面通过周期性衰减学习率使得网络参数的更新速度呈周期性变化,探索速度丰富多样,易于跳出局部最优。从而有效提高了经验样本的利用效率,避免了陷入局部最优,加快了网络的收敛速度。
本发明授权一种基于深度确定性策略的跳频智能抗干扰决策方法在权利要求书中公布了:1.一种基于深度确定性策略的跳频智能抗干扰决策方法,其特征在于包括以下步骤:步骤1、建立双变跳频通信系统模型;步骤2、建立双变跳频通信系统抗干扰决策模型;步骤3、基于强化学习的优化问题转换;步骤4、基于HDP-DDPG的双变跳频通信系统抗干扰决策;步骤5、训练HDP-DDPG网络,输出抗干扰决策模型;步骤1所述的建立双变跳频通信系统模型,具体如下:跳频信号的数学模型表示为: 其中,fc为最小跳频频率,ρl为根据伪随机序列产生的频率控制字,用来控制跳频频率的变化,fl为最小跳频频率间隔,gt为长度Tc的脉冲函数,Tc为每一跳的驻留时间,Tc时间内,跳频频率根据ρl的值来确定;最小跳频频率间隔fl用一个时变量fcρl来代替,其中ρl是伪随机序列产生的频率控制字;跳频速率v不再是固定不变,而是在多个跳速等级上伪随机非线性变化;相应地,每一跳的驻留时间Tc在伪随机非线性变化,即用Tcρl来替换Tc;因此双变跳频信号能够表示为: 设双变跳频系统的跳速v∈[Vl,Vu],频率间隔d∈[Dl,Du],则在第k跳中用户采用跳速vk对应的驻留时间Tc,k和跳频频率fc,k分别如式3和式4所示; fc,k=fc,k-1±dk,dk∈[Dl,Du]4步骤2所述的建立双变跳频通信系统抗干扰决策模型,具体如下:考虑一对收发用户利用双变跳频系统在一个拥有J个干扰机的无线电环境中进行通信的场景;在第k跳干扰机j随意选择一个频带进行干扰,其功率谱密度记为通信用户在智能体的指导下,选择一个频率fc,k∈[Fl,Fu],并发送一个给定功率为的信号进行通信;其中Uf和BW分别代表基带信号的功率谱密度和带宽;通信用户的跳频速率v∈[Vl,Vu],频率间隔d∈[Dl,Du],信源速率为btr;当感知到干扰后,发信方通过改变跳频速率和频率间隔的跳频参数避开干扰,保证通信质量;在Δ时间内,通信过程中误码率由式5表示; 其中,BERk表示第k跳的误码率;由于在每个时刻误码率与信干噪比成反比,最小化误码率等价于最大化信干噪比SINR;因此,优化问题表述为: 其中,约束条件a给出了第k跳中信干噪比计算方式,hk为第k跳的平均信道增益,ptr为发射功率,Jk为第k跳的干扰总功率,nk为第k跳的噪声总功率;约束条件b给出了干扰总功率的计算方法;约束条件c给出了噪声总功率的计算方法,nf为高斯白噪声噪声功率谱密度;约束条件d表示第k跳的频率可由k-1跳的频率以及频率间隔决定;约束条件e表示第k跳的驻留时间可由跳速确定;将强化学习应用到抗干扰决策上,在复杂未知的干扰环境中利用其持续交互试错的学习结果自主学习最优的抗干扰策略;最终将学习到一个从状态sk到动作ak的最优映射策略ak=μ*sk,使得决策智能体在未来连续的一段时间内,根据该策略进行连续参数决策,可得到最大的信干噪比;步骤3所述的基于强化学习的优化问题转换,具体如下:为了获得最优的抗干扰策略μ*,将通信参数决策空间定义为连续空间,并利用DDPG深度强化学习算法进行求解;首先将该问题转化为马尔科夫决策过程;在马尔科夫决策过程中,智能体会感知当前的系统状态,按策略实施动作,从而改变环境的状态并得到奖励;下面将结合具体系统模型,对马尔科夫决策过程中的参数进行设计;1动作及状态空间:定义用户当前所在跳数以及通信频率为状态的参量,状态表示为二维连续变量sk=[k,fc,k],定义动作为二维连续变量ak=[vk,dk];k跳时,用户位于状态sk=[k,fc,k],采取动作ak=[vk,dk]后进入下一状态sk+1=[k+1,fc,k+1];2奖励:在智能体的引导下每执行一步,用户都将获得执行所选动作后的即时奖励;优化目标是获得最大化系统的信干噪比,而强化学习算法的目标是最大化长期累积回报期望EGk,定义长期累积回报其中γ是折扣因子,rk是k跳的即时奖励,定义即时奖励如下:rk=SINRk7步骤4所述的基于HDP-DDPG的双变跳频通信系统抗干扰决策,具体如下:其中HDP-DDPG的网络模型包含4个神经网络,分别是:两个结构相同但参数不同的actor网络,分别为onlineactor网络μ和targetactor网络μ′;其中onlineactor网络μ的网络参数为θμ,targetactor网络μ′的网络参数为θμ′;两个结构相同但参数不同的critic网络,分别为onlinecritic网络Q和targetcritic网络Q',其中onlinecritic网络Q的网络参数为θQ,targetcritic网络Q′的网络参数为θQ′;4-1:双经验回放;对于经验样本i,首先定义基于立即回报机制的优先级rpi和基于TD-error机制的优先级δpi:rpi=ri+ε8δpi=|δi|+ε9其中,ri是第i个经验样本的立即回报;ε是一个正常数,用来确保每条经验都有非零优先级;δi是真实值函数Qsi,ai|θQ和估计值yi的差值,称为TD-error,被定义为:δi=ri+γQ'si+1,μ′si+1|θμ′|θQ′-Qsi,ai|θQ10其中yi=ri+γQ′si+1,μ′si+1|θμ′|θQ′,把样本池中的样本分别按照优先级rpi和δpi从大到小排列并且得到rank1和rank2,对经验进行复合排序且得到: 其中复合的优先级为: 其中,参数η表示算法使用优先级的程度,取值范围为[0,1];当η=0时表示均匀采样;定义采样经验的概率为: 4-2:周期更新的学习率;将训练总回合数M以m为周期进行划分,并在第episode个回合时按照式14-15所示的衰减规律进行更新:k′=modm,episode14αepisode=τk′α015βepisode=τk′β016式中,τ为衰减因子,α0和β0分别为α和β的初始值;mod·为取模运算;步骤5所述的训练HDP-DDPG网络,输出抗干扰决策模型,具体如下:5-1:随机初始化HDP-DDPG的actor网络的权重和critic网络的权重5-2:利用θμ′←θμ,θQ′←θQ更新targetactor网络和targetcritic网络的权重;5-3:令得到奖励rk并进入下一状态sk+1;5-4:存储经验sk,ak,rk,sk+1到容量池中;5-5:以pk为概率从容量池中抽取N组经验sn,an,rn,sn+1,其中pk由式8-13计算;5-6:计算最小化损失L,其中yn=rn+γQ′sn+1,μ′si+1|θμ′|θQ′;5-7:令k′=modm,episode,αepisode=τk′α0,βepisode=τk′β0;5-8:更新θQ:5-9:更新θμ:其中5-10:更新θμ′和θQ′:θμ′=λθμ′+1-λθμ′和θQ′=λθQ′+1-λθQ′;5-11:最终得到最优抗干扰策略
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。