买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西南交通大学
摘要:本发明公开了一种基于DDPG算法的去中心化自适应计算卸载方法,用于卡车车队系统,该方法中,DDPG由actor网络和critic网络两部分组成,每部分包含一个在线主网和一个目标网络;执行该方法时,初始化所有网络的参数,使DDPG与环境交互,然后将每个时刻生成的轨迹元组作为训练数据集存储到经验回放池中;在训练阶段,从经验回放池中随机选择一个包含N个轨迹元组的小批量样本送到DDPG中以更新网络参数;critic的主网络采用随机梯度下降方法来更新其参数,actor的主网络根据critic主网络提供的梯度来更新其网络的参数。本发明可以降低卡车车队系统的平均能耗和任务平均计算时延。
主权项:1.一种基于DDPG算法的去中心化自适应计算卸载方法,用于卡车车队系统,其特征在于,卡车车队系统模型以及通信模型为:卡车车队由一个头车PL和M个成员卡车PM组成,PM表示成:{1,2,...,m,...,M};PL配备边缘计算EC服务器;每个PM都通过V2V与PL通信;对车队中的PM应用经典车辆跟驰模型:智能驾驶员模型IDM,并假设车队系统中任何两辆相邻卡车之间的距离相等并表示为d,则车队内平衡间距由下式给出: 式中,d0是最小车队内间距,th是理想车头时距,v是行驶速度,vmax是最大行驶速度;假设每辆卡车的长度为dt,则成员m和头车之间的通信距离写为:dm=md+dt2在卡车队列系统中,NOMA技术用于PM和PL之间的通信,由于多个PM在同一信道上同步上传任务数据,因此在卸载数据时会存在信号干扰;因此,在t时上行链路中,PL从PMm中接收到的信号可通过以下方式计算: 是PMm的发射功率,是最大发射功率,是PMm的信道矢量,xmt是具有单位方差的复杂数据信号;ymt第一部分是来自目标PM的有效信号,第二部分是来自共享该信道的其他PM的干扰信号,第三部分nt~CN0,σ2是具有方差σ2的加性高斯白噪声矢量;对于PMm,使用AR模型来表征时间t和t+1之间的信道状态转换: 其中,ρm是时间t和t+1之间的归一化相关系数且接近1,et+1是一个误差矢量,同时也是一个与hmt+1不相关的复杂高斯分布,每个PM的信道矢量初始化为hm0~CN0,h0drefdmα,h0是一个路径损耗常数,dref为参考距离,α路径损失指数;考虑M个PM按其信道的降序在时间t中共享同一信道:h1t≥h2t≥…≥hmt≥…≥hMt,PMm的干扰信号可写成: 则时间t中PMm的相应SINR为: σ2是高斯白噪声功率;因此,可以根据带宽B获得PMm和PL之间的任务数据传输速率:rm,ot=Blog21+ζmt7车队系统计算模型:amt量化时间t期间PMm的到达任务数据的数量,假设在所有时间上amt都是独立同分布,amt临时存储在缓存队列中,然后在从下一个时间t+1处理;对于每个PM,假设计算任务的到达率服从泊松分布λ,任务的数据大小服从均匀分布u~Uumin,umax,则amt满足:E[amt]=λ·u;1本地计算模型对于每个PM,假设任务数据按时间顺序临时存储在缓存队列系统中,然后从缓存队列中弹出并在本地计算或卸载到PL,则PMm的本地计算的任务数据大小可写成: 是通过使用DVFS技术调整芯片电压来调度的PMm的CPU周期频率,是为CPU分配的本地计算功率,为最大本地计算功率,κm是PMm处理器的有效转换电容参数,τ0为时隙时间;Lm为可通过离线测量获得的任务数据执行所需的CPU周期数;在时间t中,PMm本地计算所消耗的能量可写成:Em,lt=τ0pm,lt92计算卸载模型由于PM的计算资源不足,部分任务数据将被卸载到PL并由EC服务器执行,根据公式8,EC服务器处理PMm的卸载任务数据所需的时间表示为: 是EC服务器分配给PMm的功率,是分配给PMm的最大计算功率,κH是EC服务器的有效转换电容参数,LH是PL处理任务数据所需的CPU周期数;根据公式7,在时间t中卸载PMm的任务数据的大小计算如下: 在时间t中PMm卸载任务数据所消耗的能量可写成:Em,ot=τ0pm,ot12PL在时间t中计算PMm的卸载任务数据所消耗的能量可写成:Em,Ht=τ0pm,Ht13车队系统问题建模:在时间t中,PMm本地计算和卸载到PL的任务数据分别为qm,lt和qm,ot,因此,所有计算的任务数据量为qm,lt+qm,ot;Qmt表示缓存队列的当前长度,通过给定到达的任务数据amt,下一个时间t+1中的缓存队列长度表示为:Qmt+1=min[maxQmt-qm,lt-qm,ot,0+amt],Qmmax14Qmmax为最大缓存队列长度;根据排队论中MM1模型和Little公式,队列的平均长度等于平均任务到达率乘以任务在队列系统中停留的平均时间,即平均缓存队列长度与任务数据延迟成正比,因此,使用平均缓存队列长度来表示平均任务计算延迟,车队系统的平均缓存队列长度可写成: 假设EC服务器具有高频多核的CPU和足够的计算资源,并且可以并行处理PM卸载的不同任务;因此,忽略PL的计算延迟和能耗;根据公式9和12在时间t中卡车队列系统消耗的平均能量计算为: 考虑到车队系统有限的电池资源以及任务计算时延,要解决的问题可以表述为:在最大电源约束下平均能耗成本最小化,在最大缓存队列长度下平均缓存队列长度最小化,写成: ω是一个非负加权系数,用于权衡缓存队列长度和总能耗;17-b、17-c表示功率不得超过其相应的最大值,17-d保证缓存队列长度的限制;基于DDPG的去中心化自适应计算卸载:DDPG由actor网络和critic网络两部分组成,每部分包含一个在线主网μs;θ、Qs,a;w和一个目标网络μs;θ-、Qs,a;w-;为了确保对环境状态空间进行更有效的随机探索,以获得最优策略,将OU随机噪声添加到动作空间中,如下所示:at=μst;θ+σOUt18初始化所有网络的参数,使DDPG与环境交互,然后将每个时刻生成的轨迹元组st,at,rt,st+1作为训练数据集存储到经验回放池中,在训练阶段,从经验回放池中随机选择一个包含N个轨迹元组的小批量样本送到DDPG中以更新网络参数;actor的主网络根据策略π将状态st映射到确定性的连续动作at,并将其传递给critic的主网络;critic的主网络输出相应的Q值,可以评估动作at的好坏;根据贝尔曼方程,目标Q值通过以下方式计算:yt=rt+γQst+1,μst+1;θ-;w-19critic的主网络采用随机梯度下降SGD方法来更新其参数: actor的主网络采用确定性策略梯度DPG方法,根据critic主网络提供的梯度来更新其网络的参数: 使用软更新方法,通过两个主在线网络对两个目标网络的参数进行部分更新:θ-←τ·θ+1-τ·θ-24w-←τ·w+1-τ·w-251状态空间在卡车队列系统中,每个PM的状态空间包括上行链路中的缓存队列长度、信道状态和SINR,基于动态信息学习的优化计算卸载策略,智能体自适应进行功率分配,可降低任务执行的能耗和缓存队列的长度;因此,排队系统的状态空间定义为: 2动作空间基于车队系统的状态,智能体在时间t自适应地、连续地选择本地计算功率和发射功率;因此,车队系统在连续域中的动作空间定义为:At={p1,lt,p1,ot;,...,pm,lt,pm,ot,...,pM,lt,pM,ot}273奖励函数在车队系统中,PM的成本函数包括缓存队列的长度、本地计算的能耗和任务卸载的能耗,因此设计的奖励函数会权衡缓存队列的长度和总能耗;因此,PMm在执行动作后从环境中获得的奖励定义为: 因此,卡车车队的平均奖励定义为: 由于DRL的目标是最大化所有奖励的总和,因此能耗和缓存队列长度为负数;是限制缓存队列长度的惩罚函数,P为惩罚常数;是一个二进制函数,当缓存队列长度超过最大值时等于1,反之等于0;车队系统奖励函数的目标表示为长期奖励,当长期奖励收敛到稳定值时,可以获得最优策略,可以表示为:
全文数据:
权利要求:
百度查询: 西南交通大学 一种基于DDPG算法的去中心化自适应计算卸载方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。