基于多目标DDQN的视频任务V2V卸载方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种基于多目标DDQN的视频任务V2V卸载方法，根据车辆边缘系统在当前决策时隙下每个车辆的信息划分得到任务车辆集合和服务车辆集合，然后设定多目标DDQN模型的状态、动作和奖励函数，其中状态包括所有车辆的信息，动作包括服务车辆中模型帧分辨率，视频任务卸载策略矩阵和计算资源分配矩阵，对多目标DDQN模型进行设置并离线训练，根据当时所有车辆的信息设置状态，输入训练好的多目标DDQN模型中的策略网络得到视频任务V2V卸载策略。本发明可以在确保安全卸载的前提下，同时优化系统时延、能耗和视频准确性，实现以上目标之间的权衡，使得卸载策略更加合理。

主权项：1.一种基于多目标强化学习的视频任务V2V卸载方法，其特征在于，包括以下步骤：S1：对于视频任务V2V卸载的决策时隙t，获取车辆边缘系统在当前决策时隙t下每个车辆的任务信息，然后将需要执行视频任务卸载的车辆划分为任务车辆，记任务车辆集合表示当前时刻t的第m个任务车辆，m＝1,2,…,M，M表示当前时刻t的任务车辆数量；每个任务车辆通过车辆间通信获取具有空闲计算资源且可以为其提供卸载视频任务的服务车辆集合将所有任务车辆的服务车辆集合合并得到当前时刻t的服务车辆集合表示当前时刻t的第n个服务车辆，n＝1,2,…,N，N表示当前时刻t的服务车辆数量；记任务车辆的车辆参数为其中表示任务车辆的位置，表示任务车辆的速度，表示任务车辆的行驶方向，表示任务车辆的视频任务信息，其中表示任务车辆的第k个子任务的信息，k＝1,2,…,Km，Km表示任务车辆的子任务数量，表示任务车辆第k个子任务的数据大小，表示任务车辆第k个子任务的计算负载，表示任务车辆第k个子任务的最大延时阈值；记服务车辆的车辆参数为其中表示服务车辆的位置，表示服务车辆的速度，表示服务车辆的行驶方向，表示服务车辆的计算资源容量；S2：设置多目标DDQN模型的状态、动作和奖励函数分别如下：状态st＝Lt,vt,ht,gt,ht,Ft，其中Lt表示决策时隙t时所有车辆的位置集合，vt表示决策时隙t时所有车辆的速度集合，ht表示决策时隙t时所有车辆的行驶方向集合，gt表示决策时隙t时各个任务车辆和服务车辆之间的信道增益集合，ht表示决策时隙t时各个任务车辆和窃听车辆之间的信道增益集合，Ft表示决策时隙t时所有服务车辆的计算资源容量集合；动作at＝qt,Xt,ft，其中qt表示决策时隙t时所有服务车辆的帧分辨率集合，其中每个元素表示服务车辆上模型的输入分辨率，Xt表示视频任务卸载策略矩阵，其中每个元素表示在决策时隙t任务车辆是否将视频任务中子任务卸载至服务车辆ft表示计算资源分配矩阵，其中每个元素表示服务车辆在决策时隙t为任务车辆中子任务分配的计算资源；矢量奖励函数其中T表示视频任务卸载策略Xt下的视频任务卸载延迟，其计算公式为：其中，表示任务车辆将子任务卸载到服务车辆上的延迟，计算公式为：表示任务车辆的子任务传输至服务车辆的延迟，计算公式为：表示任务车辆到服务车辆之间的无线传输速率；表示任务车辆的子任务在服务车辆上执行的延迟，计算公式为：表示服务车辆将子任务的计算结果传输给任务车辆的反馈延迟，计算公式为：其中，表示任务车辆的任务输出输入比例，ω表示中继延迟，表示服务车辆向任务车辆进行结果反馈的数据传输速率，R表示车辆通信范围半径，分别表示任务车辆和服务车辆在视频任务执行完成后的位置，根据车辆的行驶方向、速率和任务上传延迟任务执行延迟预测得到；E表示视频任务卸载策略Xt下的视频任务卸载能耗，其计算公式为：其中，表示任务车辆将子任务卸载到服务车辆上执行的总能耗，计算公式为：表示任务车辆的子任务传输至服务车辆的能耗，计算公式为：其中，P表示视频任务V2V卸载过程中的平均传输功率；表示任务车辆的子任务在服务车辆上执行的能耗，计算公式为：其中，Gn表示服务车辆执行视频任务的平均能耗；服务车辆将子任务的计算结果传输给的能耗，计算公式为： A表示视频任务卸载策略Xt下的视频任务分析准确性，计算公式为：其中，表示服务车辆上模型的输入分辨率，ξ表示预设的准确性函数；pXt表示惩罚项，表示为：pXt＝-μmax{KS[gXt],0}其中，μ表示惩罚因子，KS[gXt]表示约束条件的聚合函数： giXt是第i个约束，i＝1,2,3，ρKS表示预设的正常数，gmaxXt是所有约束的最大值，约束的表达式分别为：其中，ξU表示预设的准确性阈值，表示任务车辆的安全容量，计算公式为： rm,α表示任务车辆与窃听车辆α之间的信道窃听速率，表示任务车辆与窃听车辆α之间的安全通信速率，表示窃听车辆的集合，S3：为矢量奖励函数中每个奖励分别设置一个评价网络Qj，j＝1,2,3,4，设置4个目标评价网络Qj′，设置4个目标评价网络Qj′，同时设置策略网络θ和目标策略网络θ′，策略网络θ和目标策略网络θ′，分别用于评估状态的相应值和选择当前状态的动作，其中每个评价网络中Q值函数的更新公式为：其中，rt,j表示矢量奖励中第j个奖励的值，α表示学习率，γ表示折扣因子；采用如下方法对多目标DDQN模型进行训练：S3.1：随机初始化4个评价网络Qj和策略网络θ的参数，复制评价网络Qj作为目标评价网络Qj′，复制策略网络θ作为目标策略网络θ′；建立经验回放缓冲区Ψ并随机初始化若干个经验样本，建立权重历史集合Whistory并随机初始化若干个权重向量W＝ω1,ω2,ω3,ω4；S3.2：令训练轮次g＝1；S3.3：获取初始状态s1；S3.4：令时刻t＝1；S3.5：策略网络θ根据状态st选择对应的动作at，根据状态st和动作at得到下一时刻的状态st+1和矢量奖励动作选择时，从权重历史集合Whistory中随机采样一个权重向量W＝ω1,ω2,ω3,ω4，采用评价网络Qj得到每个备选动作at的Q值向量然后对Q值向量进行切比雪夫标量化，得到标量化后的Q值QW，根据每个备选动作的Q值QW对动作进行选择；Q值QW的计算公式为：其中，表示第j个Q值的参考点；S3.6：采用4个评价网络Qj得到状态st和动作at的Q值Qjst,at，从而得到Q值向量S3.7：将Q值向量输入预先构建的径向基函数神经网络，生成权重向量Wt′，并将其添加至权重历史集合Whistory；权重历史集合Whistory超出预定容量时，则按照预定规则删除多余权重向量；S3.8：将元组作为经验样本存储至经验回放缓冲区Ψ中；当经验回放缓冲区Ψ超出预定容量时，则按照预定规则删除多余经验样本；S3.9：从经验回放缓冲区Ψ随机抽取一个Ns个经验样本构成训练集，并采用目标评价网络Qj′得到对应的目标Q值向量计算损失函数Lθ并对策略网络θ的参数进行更新；S3.10：判断是否t＜T，T表示预设的最大时间步，如果是，进入步骤S3.11，否则进入步骤S3.12；S3.11：令t＝t+1，返回步骤S3.5；S3.12：计算各个评价网络的梯度，对评价网络的参数Qj进行更新；S3.13：判断是否g＜G，G表示预设的最大训练轮次，如果是，进入步骤S3.14，否则训练结束；S3.14：判断是否g％η＝0，η表示目标网络更新周期，如果是，进入步骤S3.15，否则进入S3.16；S3.15：更新目标评价网络的参数Qj′＝Qj，目标策略网络参数θ′＝θ，进入步骤S3.16；S3.16：令g＝g+1，返回步骤S3.3；S4：将步骤S1中获取的任务车辆信息和服务车辆信息构建得到状态，然后采用步骤S3训练好的多目标DDQN模型，采用策略网络得到动作a*＝q*,X*,f*，根据帧分辨率集合q*对各个服务车辆的输入帧分辨率进行设置，根据视频任务卸载策略矩阵X*将任务车辆的各个子任务卸载至对应服务车辆，根据计算资源分配矩阵f*确定服务车辆为任务车辆中子任务分配的计算资源，从而完成视频任务V2V卸载。

全文数据：

权利要求：

百度查询：河南科技大学基于多目标DDQN的视频任务V2V卸载方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：消除杂质干扰的总磷水质微流控检测的方法及系统

下一篇：孤岛多微网多能共享调度方法、系统、终端及存储介质

相关技术

消除杂质干扰的总磷水质微流控检测的方法及系统

孤岛多微网多能共享调度方法、系统、终端及存储介质

超表面近场仿真模型及其训练方法和超表面近场仿真方法

一种船舶交通数据分类识别的智能交通管理系统

一种训练数据生成方法、计算机设备和程序产品

一种基于SONiC操作系统的可插拔设备管理方法和装置

信号控制模块及制氢设备

一种小曲线大横坡节段箱梁施工方法

一种农业病虫害防治精准施药装置

1200nm窄线宽激光治疗数据处理方法及系统

一株多功能粘绿木霉菌AWH-36及其在西瓜栽培中的应用

一种有机电致发光驱动电路故障诊断优化方法

V相关技术

V型型材放料装置_佛山羿辉建材有限公司_202420726597.7

一种V形筋折弯部装_山东高速铁建装备有限公司_202420609328.2

一种V形筋折弯部装_山东高速铁建装备有限公司_202420609326.3

NR V2X重传过程_皇家飞利浦有限公司_202080076242.2

用于拥塞控制的NR V2X方法_交互数字专利控股公司_201980053070.4

一种气动V型球阀生产用夹_陕西巨隆工业科技有限公司_202420622332.2

一种基于神经网络的V型缺口应力强度因子求解方法_湖南大学_202411176568.9

基于V2G的智能充放电控制方法_合众新能源汽车股份有限公司_202411070265.9

一种V型铁碳滤层动态膜过滤设备_上海城建市政工程(集团)有限公司_202420792135.5

一种完备的RISC-V压缩指令集定制方法_兰州大学_202411533172.5

任务相关技术

终端任务分流方法及装置_中国联合网络通信集团有限公司_202011204900.X

测控设备任务调度方法及系统_中国人民解放军国防科技大学_202411086109.1

任务执行方法及相关装置_中国平安财产保险股份有限公司_202111350496.1

协同任务中天车运行异常处理方法及装置_华芯(嘉兴)智能装备有限公司_202411547371.1

扩展现实环境中的任务优化_元平台技术有限公司_202380035470.9

处理器以及任务同步的失败重启方法_北京壁仞科技开发有限公司_202411174645.7

一种任务处理方法及装置_支付宝(杭州)信息技术有限公司_202011165881.4

面向动态复杂任务的多UUV编队重构方法_哈尔滨工程大学_202411191157.7

任务处理方法、装置、设备、介质及程序产品_中国建设银行股份有限公司_202411102159.4

任务处理方法、电子设备和存储介质_浙江大华技术股份有限公司_202411049489.1

视频相关技术

视频监控装置_淳化秦炎通讯工程有限公司_202323477845.3

云视频平台组网方法及云视频平台网络系统_河北电信设计咨询有限公司_202411092464.X

基于视频显著性排序的视频重定向方法及系统_东南大学_202410935102.6

一种视频监控系统中的视频流传输方法、设备及存储介质_通号通信信息集团有限公司_202411533542.5

一种多视频感知监控系统及多视频感知监控方法_潍柴雷沃智慧农业科技股份有限公司_202411013514.0

基于预训练视频生成模型的视频分辨率提升系统及方法_湖南国科超算科技有限公司_202411535240.1

视频分类模型训练方法、视频分类方法、装置及电子设备_OPPO广东移动通信有限公司_202010737337.6

视频处理方法、视频显示方法、装置、设备及存储介质_小糖互联(北京)网络科技有限公司_202410981272.8

一种应用于视频监控系统的视频巡检过程的方法_陕西延长石油富县发电有限公司_202410908303.7

一种视频监控器_湖南华曼数据技术有限公司_202420782038.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于多目标DDQN的视频任务V2V卸载方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务