买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆理工大学
摘要:本发明公开了一种基于双深Q网络和冲突度算法的网络无冲突资源分配方法,该方法将网络环境的用户干扰关系并构建单环多图模型,在无资源冲突的约束下,以整个网络资源重用率ρ最大化为目标,构建优化问题;接着,针对所述单环多图模型,将所述优化问题建模为马尔可夫决策过程;并构建资源分配模型,所述资源分配模型包括环境模块和DDQN网络模块,其中,环境模块用于模拟网络环境中的用户干扰关系;DDQN网络模块模块包括主网络和目标网络、重放存储器D、ε‑贪婪算法单元和损失函数计算单元;最后,根据DDQN算法和冲突度算法,选择最大动作值函数对应的动作,得到最优无冲突资源分配策略。本发明实现了无冲突和资源重用率最大化。
主权项:1.一种基于双深Q网络和冲突度算法的网络无冲突资源分配方法,其特征在于,包括以下步骤:步骤1:获取待进行资源分配的网络环境的用户干扰关系并构建单环多图模型,在无资源冲突的约束下,以整个网络资源重用率ρ最大化为目标,构建优化问题;步骤2:针对所述单环多图模型,将所述优化问题建模为马尔可夫决策过程,所述马尔可夫决策过程包括状态空间、动作空间、状态转移矩阵、即时奖励函数、策略和动作价值函数六个要素;步骤3:构建资源分配模型,所述资源分配模型包括环境模块和DDQN网络模块,其中,环境模块用于模拟网络环境中的用户干扰关系;DDQN网络模块包括主网络和目标网络、重放存储器D、ε-贪婪算法单元和损失函数计算单元;步骤4:根据DDQN算法和冲突度算法,选择最大动作值函数对应的动作,得到最优无冲突资源分配策略,步骤4具体包括:S41:初始化DDQN网络及其参数,包括初始化主网络权值w和目标网络权值θ,并选择初始动作a0及其初始状态s0;S42:在动作空间A中选择一个随机动作进行基于概率阈值εt的探索,或者以1-εt的概率选择一个使得动作价值函数最大的动作;S43:根据t时刻选择的动作at和状态st计算即时奖励rt,并得到下一时刻t+1时的扩展的关联矩阵Mat+1,其中,即时奖励rt是基于冲突程度得到的,即: 其中,rst,at表示在st状态下选择动作at的环境奖励,DConflictt表示t时刻的冲突程度,即DConfiltvi,k表示用户vi使用资源k的冲突度,ρ为资源重用率;t+1时刻的扩展的关联矩阵Mat+1表示为:其中,Mt+1表示t+1时刻的单环多图模型对应的关联矩阵,Ekt+1表示t+1时刻用户的资源分配情况矩阵;S44:利用t+1时刻的扩展的关联矩阵Mat+1来获得t+1时刻的状态,即st+1=Mat+1,并将当前体验et=st,at,rt,st+1存入重放内存器D中;S45:从重放存储器D中随机选择一个体验,用于训练主网络的权重参数w,并按照设置的更新步长,更新目标网络中的参数θ=w;S46:更新贪婪因子ε,即 其中,εt表示t时刻的贪婪因子,即t时刻的概率阈值;εt+1表示t+1时刻的贪婪因子;εdecay表示设置的衰减因子;εmin表示设置的最小贪婪因子;S46:对于每次迭代,重复执行步骤S42-S46,直至迭代完成;S47:输出最终的网络权值w和目标网络权值θ,以及最优策略π*s,a。
全文数据:
权利要求:
百度查询: 重庆理工大学 基于双深Q网络和冲突度算法的网络无冲突资源分配方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。