买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于多目标DDQN的视频任务V2V卸载方法,根据车辆边缘系统在当前决策时隙下每个车辆的信息划分得到任务车辆集合和服务车辆集合,然后设定多目标DDQN模型的状态、动作和奖励函数,其中状态包括所有车辆的信息,动作包括服务车辆中模型帧分辨率,视频任务卸载策略矩阵和计算资源分配矩阵,对多目标DDQN模型进行设置并离线训练,根据当时所有车辆的信息设置状态,输入训练好的多目标DDQN模型中的策略网络得到视频任务V2V卸载策略。本发明可以在确保安全卸载的前提下,同时优化系统时延、能耗和视频准确性,实现以上目标之间的权衡,使得卸载策略更加合理。
主权项:1.一种基于多目标强化学习的视频任务V2V卸载方法,其特征在于,包括以下步骤:S1:对于视频任务V2V卸载的决策时隙t,获取车辆边缘系统在当前决策时隙t下每个车辆的任务信息,然后将需要执行视频任务卸载的车辆划分为任务车辆,记任务车辆集合表示当前时刻t的第m个任务车辆,m=1,2,…,M,M表示当前时刻t的任务车辆数量;每个任务车辆通过车辆间通信获取具有空闲计算资源且可以为其提供卸载视频任务的服务车辆集合将所有任务车辆的服务车辆集合合并得到当前时刻t的服务车辆集合表示当前时刻t的第n个服务车辆,n=1,2,…,N,N表示当前时刻t的服务车辆数量;记任务车辆的车辆参数为其中表示任务车辆的位置,表示任务车辆的速度,表示任务车辆的行驶方向,表示任务车辆的视频任务信息,其中表示任务车辆的第k个子任务的信息,k=1,2,…,Km,Km表示任务车辆的子任务数量,表示任务车辆第k个子任务的数据大小,表示任务车辆第k个子任务的计算负载,表示任务车辆第k个子任务的最大延时阈值;记服务车辆的车辆参数为其中表示服务车辆的位置,表示服务车辆的速度,表示服务车辆的行驶方向,表示服务车辆的计算资源容量;S2:设置多目标DDQN模型的状态、动作和奖励函数分别如下:状态st=Lt,vt,ht,gt,ht,Ft,其中Lt表示决策时隙t时所有车辆的位置集合,vt表示决策时隙t时所有车辆的速度集合,ht表示决策时隙t时所有车辆的行驶方向集合,gt表示决策时隙t时各个任务车辆和服务车辆之间的信道增益集合,ht表示决策时隙t时各个任务车辆和窃听车辆之间的信道增益集合,Ft表示决策时隙t时所有服务车辆的计算资源容量集合;动作at=qt,Xt,ft,其中qt表示决策时隙t时所有服务车辆的帧分辨率集合,其中每个元素表示服务车辆上模型的输入分辨率,Xt表示视频任务卸载策略矩阵,其中每个元素表示在决策时隙t任务车辆是否将视频任务中子任务卸载至服务车辆ft表示计算资源分配矩阵,其中每个元素表示服务车辆在决策时隙t为任务车辆中子任务分配的计算资源;矢量奖励函数其中T表示视频任务卸载策略Xt下的视频任务卸载延迟,其计算公式为: 其中,表示任务车辆将子任务卸载到服务车辆上的延迟,计算公式为: 表示任务车辆的子任务传输至服务车辆的延迟,计算公式为: 表示任务车辆到服务车辆之间的无线传输速率; 表示任务车辆的子任务在服务车辆上执行的延迟,计算公式为: 表示服务车辆将子任务的计算结果传输给任务车辆的反馈延迟,计算公式为: 其中,表示任务车辆的任务输出输入比例,ω表示中继延迟,表示服务车辆向任务车辆进行结果反馈的数据传输速率,R表示车辆通信范围半径,分别表示任务车辆和服务车辆在视频任务执行完成后的位置,根据车辆的行驶方向、速率和任务上传延迟任务执行延迟预测得到;E表示视频任务卸载策略Xt下的视频任务卸载能耗,其计算公式为: 其中,表示任务车辆将子任务卸载到服务车辆上执行的总能耗,计算公式为: 表示任务车辆的子任务传输至服务车辆的能耗,计算公式为: 其中,P表示视频任务V2V卸载过程中的平均传输功率; 表示任务车辆的子任务在服务车辆上执行的能耗,计算公式为: 其中,Gn表示服务车辆执行视频任务的平均能耗; 服务车辆将子任务的计算结果传输给的能耗,计算公式为: A表示视频任务卸载策略Xt下的视频任务分析准确性,计算公式为: 其中,表示服务车辆上模型的输入分辨率,ξ表示预设的准确性函数;pXt表示惩罚项,表示为:pXt=-μmax{KS[gXt],0}其中,μ表示惩罚因子,KS[gXt]表示约束条件的聚合函数: giXt是第i个约束,i=1,2,3,ρKS表示预设的正常数,gmaxXt是所有约束的最大值,约束的表达式分别为: 其中,ξU表示预设的准确性阈值,表示任务车辆的安全容量,计算公式为: rm,α表示任务车辆与窃听车辆α之间的信道窃听速率,表示任务车辆与窃听车辆α之间的安全通信速率,表示窃听车辆的集合,S3:为矢量奖励函数中每个奖励分别设置一个评价网络Qj,j=1,2,3,4,设置4个目标评价网络Qj′,设置4个目标评价网络Qj′,同时设置策略网络θ和目标策略网络θ′,策略网络θ和目标策略网络θ′,分别用于评估状态的相应值和选择当前状态的动作,其中每个评价网络中Q值函数的更新公式为: 其中,rt,j表示矢量奖励中第j个奖励的值,α表示学习率,γ表示折扣因子;采用如下方法对多目标DDQN模型进行训练:S3.1:随机初始化4个评价网络Qj和策略网络θ的参数,复制评价网络Qj作为目标评价网络Qj′,复制策略网络θ作为目标策略网络θ′;建立经验回放缓冲区Ψ并随机初始化若干个经验样本,建立权重历史集合Whistory并随机初始化若干个权重向量W=ω1,ω2,ω3,ω4;S3.2:令训练轮次g=1;S3.3:获取初始状态s1;S3.4:令时刻t=1;S3.5:策略网络θ根据状态st选择对应的动作at,根据状态st和动作at得到下一时刻的状态st+1和矢量奖励动作选择时,从权重历史集合Whistory中随机采样一个权重向量W=ω1,ω2,ω3,ω4,采用评价网络Qj得到每个备选动作at的Q值向量然后对Q值向量进行切比雪夫标量化,得到标量化后的Q值QW,根据每个备选动作的Q值QW对动作进行选择;Q值QW的计算公式为: 其中,表示第j个Q值的参考点;S3.6:采用4个评价网络Qj得到状态st和动作at的Q值Qjst,at,从而得到Q值向量S3.7:将Q值向量输入预先构建的径向基函数神经网络,生成权重向量Wt′,并将其添加至权重历史集合Whistory;权重历史集合Whistory超出预定容量时,则按照预定规则删除多余权重向量;S3.8:将元组作为经验样本存储至经验回放缓冲区Ψ中;当经验回放缓冲区Ψ超出预定容量时,则按照预定规则删除多余经验样本;S3.9:从经验回放缓冲区Ψ随机抽取一个Ns个经验样本构成训练集,并采用目标评价网络Qj′得到对应的目标Q值向量计算损失函数Lθ并对策略网络θ的参数进行更新;S3.10:判断是否t<T,T表示预设的最大时间步,如果是,进入步骤S3.11,否则进入步骤S3.12;S3.11:令t=t+1,返回步骤S3.5;S3.12:计算各个评价网络的梯度,对评价网络的参数Qj进行更新;S3.13:判断是否g<G,G表示预设的最大训练轮次,如果是,进入步骤S3.14,否则训练结束;S3.14:判断是否g%η=0,η表示目标网络更新周期,如果是,进入步骤S3.15,否则进入S3.16;S3.15:更新目标评价网络的参数Qj′=Qj,目标策略网络参数θ′=θ,进入步骤S3.16;S3.16:令g=g+1,返回步骤S3.3;S4:将步骤S1中获取的任务车辆信息和服务车辆信息构建得到状态,然后采用步骤S3训练好的多目标DDQN模型,采用策略网络得到动作a*=q*,X*,f*,根据帧分辨率集合q*对各个服务车辆的输入帧分辨率进行设置,根据视频任务卸载策略矩阵X*将任务车辆的各个子任务卸载至对应服务车辆,根据计算资源分配矩阵f*确定服务车辆为任务车辆中子任务分配的计算资源,从而完成视频任务V2V卸载。
全文数据:
权利要求:
百度查询: 河南科技大学 基于多目标DDQN的视频任务V2V卸载方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。