首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于离散软演员-评论家算法的MEC任务卸载决策方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:吉林大学

摘要:本发明公开了一种基于离散软演员‑评论家算法的MEC任务卸载决策方法,建立MEC卸载模型;对车联网移动边缘计算中所有车辆用户的任务加权时延进行数学建模,车辆用户的任务加权时延最小化为目标进行任务卸载决策优化,并利用深度强化学习方法解决此优化问题;然后采用离散软演员‑评论家算法作为深度强化学习模型的基本结构;然后将任务卸载决策优化问题转化为马尔科夫决策过程,对状态空间、动作空间、奖励函数、算法的网络结构进行设计;然后形成基于离散软演员‑评论家算法的任务调度算法;最后对算法的任务卸载决策优化;通过本方法可以在不同总计算资源大小及不同任务数据大小的情况下均能够实现对任务处理时延进行显著优化。

主权项:1.基于离散软演员-评论家算法的MEC任务卸载决策方法,通过对包含远端云服务器、路边MEC服务器、基站MEC服务器、多个路边单元、1个基站和多个智能车辆的PC5-Uu双通信模式MEC系统建立数学模型,面对智能车辆将任务数据传输至计算目的地进行处理的任务卸载过程,将以智能车辆用户的任务加权时延最小化为目标的卸载决策优化问题转化为马尔可夫决策问题,并使用离散软演员-评论家算法对场景中智能车辆的任务卸载方案进行优化,为智能车辆找到任务卸载的最佳目的地以及最佳路径,从而实现最小化智能车辆任务时延,其特征在于,具体步骤如下:步骤一:建立MEC卸载模型;MEC卸载模型为总模型,是对完整的MEC系统建立的模型,其中包括MEC卸载场景模型、MEC卸载通信模型和MEC卸载计算模型;1建立MEC卸载场景模型;MEC系统中包含一条双向的道路,路边等间距设置有M个路边单元S={S1,S2,…,SM},每一个路边单元均与一个路边MEC服务器单独以有线方式连接且相邻路边单元同样以有线的方式连接,单个路边MEC服务器的总计算资源为Fr,路边单元m表示M个路边单元中的某一个,即m∈M;道路上N辆搭载OBU和车载以太网的智能车辆的集合设为V={V1,V2,…,VN},其中的每一辆智能车辆均能够与其所在的通信范围的路边单元以PC5模式通信并将任务卸载至与该路边单元匹配的MEC服务器进行计算,智能车辆n表示N辆智能车辆中的某一辆,即n∈N;场景中所有智能车辆每个时隙同时产生一个需要处理的任务,智能车辆n产生的任务设为其中Dn为该任务数据大小,Cn为该任务单位任务数据所需计算资源量,为完成该任务可接受的最大时延;Bn为该任务上传时所占的信道资源块子信道数量,当智能车辆与路边单元进行通信时,能够占用1到5个资源块;此外,场景内有1个5G基站,与周围的路边单元采取有线连接的方式进行通信,同时也能够通过Uu模式与通信范围内的智能车辆进行通信,5G基站与5GMEC服务器通过有线方式连接,5GMEC服务器的计算资源为Fb,同时与远端云服务器以远距离有线的方式通信;1个5G基站和M个路边单元及与其配套的MEC服务器构成一个联合边缘节点,各路边单元之间以及路边单元与5G基站之间均为有线连接;2建立MEC卸载通信模型;当智能车辆以PC5模式与路边单元进行通信时,单个路边单元总带宽为Wr,总带宽在频域上分为多个资源块,一个资源块带宽为Wrb;当智能车辆以Uu模式与5G基站通信时,总带宽为Wb,信道在频域上被划分为多个子信道,子信道带宽为Wbb;连接决策变量为an={0,1},表示智能车辆n选择与路边单元或5G基站进行通信,an=0表示智能车辆n选择与路边单元通信,an=1表示智能车辆n选择与5G基站通信;计算决策变量bn={bn1,bn2,…,bnM,bnb,bnc}为智能车辆选择将任务卸载至某一个路边MEC服务器、5GMEC服务器或云服务器进行计算,bn中的每一项只取值0或1且bn中的所有项中只有一项可以为1,即满足若bn1,bn2,…,bnM中有一项为1,则表明智能车辆n的任务将会卸载到对应的路边MEC服务器;若bnb为1,则表明智能车辆n的任务将会卸载到5GMEC服务器;若bnc为1,则表明智能车辆n的任务将会卸载到云服务器;当智能车辆选择与路边单元通信时,记dnr为智能车辆和路边单元之间的距离,则智能车辆n与路边单元m之间的信道增益hnr为: 根据香农定理,此时传输速率Rnr为: 其中,pn为智能车辆n的发射功率,pn为4W;σ2为无线信道的噪声功率,σ2为-114dbm;此时传输时延为: 当智能车辆选择与5G基站通信时,记dnb为智能车辆和5G基站之间的距离,则智能车辆n与基站之间的信道增益hnb为: 根据香农定理,此时传输速率Rnb为: 此时传输时延为: 当选择与某个路边单元通信的任务所需的资源块数量之和超过该路边单元提供的总资源块数量时,任务将分批次传输,kn为智能车辆n的任务被随机分配到的批次序,即智能车辆n的任务将在第kn批被传输,tin为相邻批次间的时间间隔,tin为10ms,则通信阶段的总时延为: 3建立MEC卸载计算模型;当智能车辆n将任务卸载至路边MEC服务器进行计算时,计算时延为: 其中,fnm表示计算智能车辆n任务的路边MEC服务器m分配给该任务的计算资源,在该路边MEC服务器上计算的任务均分该服务器的计算资源,即: 其中Fr为每个路边MEC服务器的总计算资源;当智能车辆将任务卸载至5GMEC服务器进行计算时,计算时延为: 其中,fnb表示5GMEC服务器为智能车辆n的任务分配的计算资源;在5GMEC服务器上计算的任务均分服务器的计算资源,即: 云服务器配置了丰富的计算和存储能力,当执行远程云计算任务时,所需的平均处理时长与数据从路边单元或5G基站经由远程有线网络传至云服务器的延迟之和为一个恒定值τc,即包括在云服务器上计算的任务执行时间和路边单元到云服务器的回程线路访问时间,因此当智能车辆n将任务卸载至云服务器计算时,计算时延为: 根据上述内容,智能车辆n的任务总时延Tn为: 步骤二:对以智能车辆的任务加权时延最小化为目标的卸载决策优化问题进行数学建模;智能车辆n的权重λn为: 因此,本方法要优化的问题,即场景中所有智能车辆任务的加权时延总和为: 约束项中:C1表示智能车辆同时只能跟一个路边单元或5G基站通信;C2表示任务只能在一个路边MEC或5GMEC或云服务器上计算;C3表示智能车辆n的任务只存在卸载或不卸载到某个路边MEC服务器计算两种状态;C4表示智能车辆n的任务只存在卸载或不卸载到5GMEC服务器计算两种状态;C5表示智能车辆n的任务只存在卸载或不卸载到云服务器计算两种状态;C6表示每个路边单元所受的信道资源限制;C7表示5G基站所受的信道资源限制;步骤三:将任务卸载决策优化问题转化为马尔科夫决策过程,为其定义状态空间、动作空间和奖励机制;1状态空间st被定义为:st={s1t,s2t,…,snt,…sNt}16其中,Dn为该任务数据大小,Cn为该任务单位任务数据所需计算资源量,为完成该任务可接受的最大时延,Bn为该任务上传时所占的信道资源块子信道数量;2动作空间at,即所有智能车辆的任务的卸载决策,at表示为:at={a1t,a2t,…,ant,…,aNt}17其中,ant=[ant,bn1t,bn2t,…,bnMt,bnbt,bnct],代表智能车辆n的任务卸载决策;为了方便优化,将ant改写为一个长度为2*M+2的数组,前M+2位表示智能车辆n是否在选择与路边单元通信的情况下将任务卸载至对应的目的地进行运算,后M+2位表示智能车辆n是否在选择与基站通信的情况下将任务卸载至对应的目的地进行运算;3奖励机制:根据系统中一个时隙内智能车辆任务时延加权和来设置奖励值,将即时奖励设置rt为时延加权和的倒数,rt表示为: 则长期奖励R为: 其中,μ为折扣因子,当有任务的计算的时延超过其最大可容忍时延时,将减低奖励值作为惩罚;同时,当连接到同一个路边单元的任务占用的通信资源之和超过该路边单元所提供的通信资源时,该决策判定为失效并重新决策;4根据以上定义,原优化问题被转化为马尔可夫决策问题,转化后的问题表示为: 步骤四:设计离散软演员-评论家算法所需的神经网络;离散软演员-评论家算法有Actor网络和Critic网络两套神经网络;Actor网络采用了三层全连接神经网络,第一层包含4*N个神经元,第二层包含64个神经元,激活函数为Relu函数,第三层有N组输出,连接为M+2*N个神经元,激活函数为Softmax函数;4个Critic网络采用了三层全连接神经网络,第一层包含4*N个神经元,第二层包含128个神经元,激活函数为Relu函数,第三层包含M+2*N个神经元,QCritic网络第三层输出为动作-状态对价值,VCritic网络第三层输出为状态价值估计;步骤五:基于离散软演员-评论家算法的任务卸载决策优化,具体流程为:过程1:初始化场景参数,包括:路边单元数量M,智能车辆数N,资源块大小子信道带宽B,每个基站的带宽Bb,每个路边单元的带宽Br,智能车辆上传功率pn,相邻批次时间间隔tin;初始化网络训练参数,包括:Actor网络的网络参数θ、Q0Critic网络的网络参数ω0、Q1Critic网络的网络参数ω1、VCritic网络的网络参数ωv、TargetVCritic网络的网络参数和温度参数α;智能体的经验池大小为500,采样上限为1000,起始训练经验数min_size为200,训练回合数num_epochs为1000,单次训练所需经验数batch为64,软更新参数ρ为0.005,折扣因子μ为0.9,目标温度参数为-0.1,Actor网络学习率为10-3,Critic网络学习率为10-2,α学习率为10-2,优化器为Adam;过程2:根据式16向环境获取初始状态st;设置r=0,t=0;清空经验池过程3:Actor网络根据状态st输出所有动作概率πa|st,通过采样确定t时刻动作at,智能体执行at并与环境交互得到st+1,rt+1;若所有路边单元的信道资源均没有超载,则将采样数据{st,at,rt,st'}存储到经验池中,将st'作为下一个时隙的st,t=t+1;若有路边单元的信道资源超载,即与该路边单元通信的车辆产生的任务所占用的信道资源之和超过该路边单元的总信道资源,则需重新确定t时刻动作;过程4:循环过程3直到t达到经验池大小500或达到采样次数上限1000;过程5:从经验池中取出数据st,at,st+1,rt+1,根据式21计算VCritic网络的状态价值估计并以式22为Loss函数对VCritic网络进行训练: 其中at'是未更新的Actor网络π重新预测的所有可能动作;α是温度参数;q0为Q0Critic网络的输出,q1为Q1Critic网络的输出,v为VCritic网络的输出;过程6:从经验池中取出数据st,at,st+1,rt+1,根据式23求得QCritic函数的真实价值估计并以式24为Loss函数训练网络Q0和Q1: 其中代表经验池;过程7:以式25为Loss函数对Actor网络进行训练: 其中π是Actor网络的输出;过程8:以式26为Loss函数对温度参数α进行训练: 过程9:用加权求和的方法更新TargetVCritic网络: 其中ρ为软更新参数;过程10:循环过程2至过程9共num_epoches次;清空经验池过程11:此时训练已完成,将场景中智能车辆的任务状态st输入Actor网络,对Actor网络的输出π通过sample函数进行概率采样即可得到所需的每辆智能车辆的卸载策略。

全文数据:

权利要求:

百度查询: 吉林大学 基于离散软演员-评论家算法的MEC任务卸载决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。