首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学(深圳)

摘要:本发明提供了一种基于多智能体深度强化学习的矩阵‑向量乘法编码计算分配方法,包括如下步骤:步骤一:构建一个多智能体多边缘基站的矩阵‑向量计算任务卸载系统模型;步骤二:将该系统模型的工作流程分为三步:任务编码、任务卸载、分布式计算;步骤三:建立最小化系统成本的优化问题;步骤四:确定深度强化学习算法的四元组状态S,动作A,回报R,转移概率P,通过多智能体‑深度确定性策略梯度(MA‑DDPG)算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。本发明的有益效果是:本发明不仅考虑到边缘基站计算能力和慢节点参数的异构性,同时考虑智能体(无人机)和边缘基站通信的带宽资源的有限性,并且在通过无速率码的分布式编码计算降低了慢节点(Straggler)对分布式计算任务的处理延迟影响,从而减小了矩阵‑向量乘法计算任务的处理成本。

主权项:1.一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法,其特征在于,包括如下步骤:步骤一:构建一个多智能体多边缘基站的矩阵-向量乘法任务卸载系统模型,智能体为无人机;步骤二:将该系统模型的工作流程分为如下三步:步骤1:任务编码,将计算任务按照无速率码的规则进行编码;步骤2:任务卸载,无人机飞行至各自的卸载点并按照任务分配的比例进行卸载;步骤3:分布式计算,边缘基站接收到智能体卸载的任务后,按照计算资源分配的比例进行分布式编码计算,计算完成后将计算结果回传至智能体;步骤三:建立最小化系统成本的优化问题;步骤四:确定深度强化学习算法的四元组状态S,动作A,回报R,转移概率P,通过多智能体-深度确定性策略梯度算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数;在所述步骤一中,系统模型由M个UAV和P个基站组成,UAV的集合表示为基站的集合表示为假设无人机和基站之间是视距传输信道,第m个无人机初始坐标第p个BS的三维坐标为rp=[xp,yp,0],所以第m个无人机和第p个BS的直线距离可以表示为: 那么,信道增益hm,p可以表示为:hm,p=β0dm,p-2其中,β0代表归一化信道增益;假设整个系统M个无人机的总传输带宽是B,并且采用频分多址技术来保证多无人机可以同时进行任务卸载,带宽的分配矩阵Ω可以表示为: 其中,ωm,p代表第m个无人机和第p个地面基站之间信道带宽的比例,且满足第m个无人机和第p个地面基站之间的信道传输速率可以表示为: 其中,代表第m个无人机的卸载功率,N0代表噪声功率谱密度;在所述步骤二的步骤1中,无人机将计算任务按照LT无速率码的编码规则进行预处理,并将计算任务按照比例划分多个子任务;第m个无人机的任务可以表示为其中Dm代表任务比特数,Fm代表工作负载,代表无人机任务处理的容忍时间;无人机的计算任务是以矩阵向量乘法形式表征,即ym=Amx,其中待计算的矩阵行数lm和数据量Dm之间的关系可以表示为: 其中b是计算一个长度为k的内积的比特数;无人机在对任务矩阵进行编码处理,即对Am进行无速率编码得到所以第m个UAV计算任务经过编码后的数据量可以表示为:无人机将编码后的矩阵按比例分配给边缘基站,其分配矩阵Γ可以表示为: 其中,γm,p代表第m个无人机分配给第p个边缘基站的计算任务的比例,且满足所以,第m个无人机的任务可以表示为子矩阵的行数可以表示为lm,p:lm,p=γm,p·αm·lm;在所述步骤二的步骤2中,对于每个无人机都采用全卸载策略,即无人机将计算任务全部卸载至地面基站;每个无人机先飞行至各自的卸载点,假设第m个无人机的卸载点坐标为所以第m个无人机飞行至卸载点的时延可以表示为:其中vm代表第m个无人机的飞行速度;无人机飞行至卸载点后通过相应的视距传输信道将任务卸载至地面基站,所以第m个无人机将计算任务卸载至第p个基站的传输时间可以表示为: 无人机将计算任务卸载完成之后就原地悬停,等待地面基站将计算结果处理返回;在所述步骤二的步骤3中,地面基站接收到无人机所卸载的任务后,进行分布式计算;地面总计算资源为fmax,对于处理来自于不同无人机的计算任务分配不同的计算资源,其分配矩阵Λ可以表示为 其中,λm,p代表第p个基站处理来自于第m个无人机的子任务的计算资源占比,即所以,第p个基站处理第m个无人机所卸载的大小为单个内积的计算任务的时间为 其中ρn为第n个BS的CPU计算1bit任务的周期数;所以,第p个BS计算第m个无人机所卸载的lmp个内积任务的计算时间为 由于对计算任务进行LT无速率码编码处理,所以第m个无人机需要接受lm行的计算结果可以认为计算完成,第p个基站处理第m个无人机分配的子任务的计算时间可以表示为 其中Xt为计数函数,即统计各基站处理矩阵乘法任务的行数;在所述步骤三中,处理计算任务的总时延分为三部分:飞行时延、卸载时延、悬停时延;第m个无人机的任务完成时间可以表示为: 对应地,处理计算任务的总能耗也分为四部分:飞行能耗、卸载能耗、悬停能耗、基站计算能耗,分别可以表示为 其中wm代表第m个无人机的质量,κp代表第p个基站的有限CPU开关电容,该参数只与CPU硬件有关;所以,第m个无人机完成计算任务的系统总能耗可以表示为 所以,第m个无人机完成计算任务的成本可以表示为 其中,η为成本折中系数,且满足0<η<1,σ是时延能耗的平衡因子;定义评价系统的指标为系统处理计算任务的归一化成本,所以得到下面的优化问题: 该问题通过优化无人机的卸载点、信道带宽分配、无人机计算任务分配以及地面基站计算资源分配来实现归一化成本的最小化;其中,C1代表信道带宽资源分配比例和为1,C2代表每个无人机的计算任务分配比例的和为1,C3代表地面计算资源分配比例之和为1,C4代表无人机接收到lm才认为任务完成,C5代表无人机计算任务要在容忍时间之内完成,C6代表无人机工作的能量损耗不超过无人机电池能量总和;在所述步骤四中,在所述系统模型中,深度强化学习四元组状态S,动作A,回报R,转移概率P可以定义为 P=p[st+1,rt∣st,at]其中智能体为无人机和边缘基站,动作代表无人机的飞行路径选择、信道带宽分配、计算任务分配和计算资源分配;状态包括信道传输速率、无人机飞行时间和飞行能耗、无人机卸载时间和卸载能耗、地面计算时间和计算能耗以及无人机等待计算结果返回的悬停能耗;回报与系统归一化成本呈负相关;所述多智能体-深度确定性策略梯度算法包括环境、智能体,每个智能体都包括演员网络、评判家网络和一个经验回放池,其中每个网络又包括两个DQN,分别为评估网络和目标网络,每个网络的Q函数:即action-value函数,定义在状态st下at采取动作后,且如果持续执行策略μ的情况下所获得的期望值,用Bellman等式来定义:Qμst,at=E[rst,at+γQμst+1,μst+1]Q函数的定义是一个递归表达,通过一个函数对Bellman等式表达进行模拟;在DDPG中,用一个卷积神经网络对Q函数进行模拟,这个网络叫做Q网络,其参数为θQ;衡量一个策略μ的表现:用一个准则函数J来衡量,可以表示为Jβμ=∫SρβsQμs,μsds其中,s是环境的状态,这些状态是基于智能体的行为策略产生的,它们的分布函数为ρβs,Qμs,μs是在每个状态下,如果都按照μ策略选择动作时,能够产生的Q值;因此,最优行为策略μ可以认为是准则函数Jβμ的最大似然估计,可以表示为 并且,定义网络的LOSS函数为均方误差,它是预测值与目标值之间差值的平方和,是回归损失函数中最常用的误差,因此LOSS函数可以表示为 策略网络的策略梯度在状态s呈ρβs的概率分布下的期望值,可以表示为 并且,根据评估网络更新目标网络采用软更新的方式,更新方法如下 其中,τ取值为0.001。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学(深圳) 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。