一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法

导航：龙图腾网> 最新专利技术> 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨工业大学(深圳)

摘要：本发明提供了一种基于多智能体深度强化学习的矩阵‑向量乘法编码计算分配方法，包括如下步骤：步骤一：构建一个多智能体多边缘基站的矩阵‑向量计算任务卸载系统模型；步骤二：将该系统模型的工作流程分为三步：任务编码、任务卸载、分布式计算；步骤三：建立最小化系统成本的优化问题；步骤四：确定深度强化学习算法的四元组状态S,动作A,回报R,转移概率P，通过多智能体‑深度确定性策略梯度（MA‑DDPG）算法求解优化问题，获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。本发明的有益效果是：本发明不仅考虑到边缘基站计算能力和慢节点参数的异构性，同时考虑智能体（无人机）和边缘基站通信的带宽资源的有限性，并且在通过无速率码的分布式编码计算降低了慢节点（Straggler）对分布式计算任务的处理延迟影响，从而减小了矩阵‑向量乘法计算任务的处理成本。

主权项：1.一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法，其特征在于，包括如下步骤：步骤一：构建一个多智能体多边缘基站的矩阵-向量乘法任务卸载系统模型，智能体为无人机；步骤二：将该系统模型的工作流程分为如下三步：步骤1：任务编码，将计算任务按照无速率码的规则进行编码；步骤2：任务卸载，无人机飞行至各自的卸载点并按照任务分配的比例进行卸载；步骤3：分布式计算，边缘基站接收到智能体卸载的任务后，按照计算资源分配的比例进行分布式编码计算，计算完成后将计算结果回传至智能体；步骤三：建立最小化系统成本的优化问题；步骤四：确定深度强化学习算法的四元组状态S,动作A,回报R,转移概率P，通过多智能体-深度确定性策略梯度算法求解优化问题，获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数；在所述步骤一中，系统模型由M个UAV和P个基站组成，UAV的集合表示为基站的集合表示为假设无人机和基站之间是视距传输信道，第m个无人机初始坐标第p个BS的三维坐标为rp＝[xp,yp,0]，所以第m个无人机和第p个BS的直线距离可以表示为：那么，信道增益hm,p可以表示为：hm,p＝β0dm,p-2其中，β0代表归一化信道增益；假设整个系统M个无人机的总传输带宽是B，并且采用频分多址技术来保证多无人机可以同时进行任务卸载，带宽的分配矩阵Ω可以表示为: 其中，ωm,p代表第m个无人机和第p个地面基站之间信道带宽的比例，且满足第m个无人机和第p个地面基站之间的信道传输速率可以表示为：其中，代表第m个无人机的卸载功率，N0代表噪声功率谱密度；在所述步骤二的步骤1中，无人机将计算任务按照LT无速率码的编码规则进行预处理，并将计算任务按照比例划分多个子任务；第m个无人机的任务可以表示为其中Dm代表任务比特数，Fm代表工作负载，代表无人机任务处理的容忍时间；无人机的计算任务是以矩阵向量乘法形式表征，即ym＝Amx，其中待计算的矩阵行数lm和数据量Dm之间的关系可以表示为：其中b是计算一个长度为k的内积的比特数；无人机在对任务矩阵进行编码处理，即对Am进行无速率编码得到所以第m个UAV计算任务经过编码后的数据量可以表示为：无人机将编码后的矩阵按比例分配给边缘基站，其分配矩阵Γ可以表示为：其中，γm,p代表第m个无人机分配给第p个边缘基站的计算任务的比例，且满足所以，第m个无人机的任务可以表示为子矩阵的行数可以表示为lm,p：lm,p＝γm,p·αm·lm；在所述步骤二的步骤2中，对于每个无人机都采用全卸载策略，即无人机将计算任务全部卸载至地面基站；每个无人机先飞行至各自的卸载点，假设第m个无人机的卸载点坐标为所以第m个无人机飞行至卸载点的时延可以表示为：其中vm代表第m个无人机的飞行速度；无人机飞行至卸载点后通过相应的视距传输信道将任务卸载至地面基站，所以第m个无人机将计算任务卸载至第p个基站的传输时间可以表示为：无人机将计算任务卸载完成之后就原地悬停，等待地面基站将计算结果处理返回；在所述步骤二的步骤3中，地面基站接收到无人机所卸载的任务后，进行分布式计算；地面总计算资源为fmax,对于处理来自于不同无人机的计算任务分配不同的计算资源，其分配矩阵Λ可以表示为其中，λm,p代表第p个基站处理来自于第m个无人机的子任务的计算资源占比，即所以，第p个基站处理第m个无人机所卸载的大小为单个内积的计算任务的时间为其中ρn为第n个BS的CPU计算1bit任务的周期数；所以，第p个BS计算第m个无人机所卸载的lmp个内积任务的计算时间为由于对计算任务进行LT无速率码编码处理，所以第m个无人机需要接受lm行的计算结果可以认为计算完成，第p个基站处理第m个无人机分配的子任务的计算时间可以表示为其中Xt为计数函数，即统计各基站处理矩阵乘法任务的行数；在所述步骤三中，处理计算任务的总时延分为三部分：飞行时延、卸载时延、悬停时延；第m个无人机的任务完成时间可以表示为：对应地，处理计算任务的总能耗也分为四部分：飞行能耗、卸载能耗、悬停能耗、基站计算能耗，分别可以表示为其中wm代表第m个无人机的质量，κp代表第p个基站的有限CPU开关电容，该参数只与CPU硬件有关；所以，第m个无人机完成计算任务的系统总能耗可以表示为所以，第m个无人机完成计算任务的成本可以表示为其中，η为成本折中系数，且满足0＜η＜1，σ是时延能耗的平衡因子；定义评价系统的指标为系统处理计算任务的归一化成本，所以得到下面的优化问题：该问题通过优化无人机的卸载点、信道带宽分配、无人机计算任务分配以及地面基站计算资源分配来实现归一化成本的最小化；其中，C1代表信道带宽资源分配比例和为1，C2代表每个无人机的计算任务分配比例的和为1，C3代表地面计算资源分配比例之和为1，C4代表无人机接收到lm才认为任务完成，C5代表无人机计算任务要在容忍时间之内完成，C6代表无人机工作的能量损耗不超过无人机电池能量总和；在所述步骤四中，在所述系统模型中，深度强化学习四元组状态S,动作A,回报R,转移概率P可以定义为 P＝p[st+1,rt∣st,at]其中智能体为无人机和边缘基站，动作代表无人机的飞行路径选择、信道带宽分配、计算任务分配和计算资源分配；状态包括信道传输速率、无人机飞行时间和飞行能耗、无人机卸载时间和卸载能耗、地面计算时间和计算能耗以及无人机等待计算结果返回的悬停能耗；回报与系统归一化成本呈负相关；所述多智能体-深度确定性策略梯度算法包括环境、智能体，每个智能体都包括演员网络、评判家网络和一个经验回放池，其中每个网络又包括两个DQN，分别为评估网络和目标网络，每个网络的Q函数:即action-value函数，定义在状态st下at采取动作后，且如果持续执行策略μ的情况下所获得的期望值,用Bellman等式来定义：Qμst,at＝E[rst,at+γQμst+1,μst+1]Q函数的定义是一个递归表达，通过一个函数对Bellman等式表达进行模拟；在DDPG中，用一个卷积神经网络对Q函数进行模拟，这个网络叫做Q网络，其参数为θQ；衡量一个策略μ的表现：用一个准则函数J来衡量，可以表示为Jβμ＝∫SρβsQμs,μsds其中，s是环境的状态，这些状态是基于智能体的行为策略产生的，它们的分布函数为ρβs，Qμs,μs是在每个状态下，如果都按照μ策略选择动作时，能够产生的Q值；因此，最优行为策略μ可以认为是准则函数Jβμ的最大似然估计，可以表示为并且，定义网络的LOSS函数为均方误差，它是预测值与目标值之间差值的平方和，是回归损失函数中最常用的误差,因此LOSS函数可以表示为策略网络的策略梯度在状态s呈ρβs的概率分布下的期望值，可以表示为并且，根据评估网络更新目标网络采用软更新的方式，更新方法如下其中，τ取值为0.001。

全文数据：

权利要求：

百度查询：哈尔滨工业大学(深圳) 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：车身总成及车辆

下一篇：试管图像处理方法、装置、电子设备及存储介质

相关技术

车身总成及车辆

试管图像处理方法、装置、电子设备及存储介质

一种用于特种车辆的智能检测系统

一种用于非洲地区小样本精细水体遥感提取的对抗样本生成方法

通过中间散热器将物体附接到基座

一种实时检测胶水余量的供胶系统以及点胶系统

一种气象对人和装备的影响效应评估方法

一种红外线对射感应开关及其制造方法

用于深度学习网络的优化方法及运算系统

一种高铁高硫铝土矿脱硫与铁铝资源综合利用方法

基于图像分析的焊接机器人焊接质量检测系统及方法

一种电池极片高纯高脱粉设备

乘法相关技术

一种用于矩阵乘法的光计算系统_上海爱德赞医疗科技有限公司_202410999129.1

一种全同态乘法的GPU加速方法_南京邮电大学_202410910792.X

一种基于同态加密的隐私保护矩阵乘法计算方法及装置_之江实验室_202410956185.7

一种利用掉队节点计算能力的编码矩阵乘法方法_福建师范大学_202111339333.3

一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法_哈尔滨工业大学(深圳)_202210047279.3

适用于格密码的多项式乘法的分布式计算系统及方法_山东大学_202410887370.5

乘法器、数据处理方法、装置及芯片_上海寒武纪信息科技有限公司_201911351197.2

一种面向稀疏矩阵乘法的矩阵划分方法和硬件加速器_之江实验室_202410871937.X

一种存内精度可调的矢量矩阵乘法运算方法及运算器_华中科技大学_202111331694.3

一种基于非负最小二乘法的脑灌注参数解算方法及系统_首都医科大学宣武医院_202410999990.8

学习相关技术

执行机器学习模型_瑞典爱立信有限公司_201980097196.1

批量强化学习_谷歌有限责任公司_201880038408.4

一种基于元学习的含噪声标签学习方法_昆明理工大学_202410956879.0

基于深度学习的个性化学习内容推荐系统_刘勇_202411149327.5

机器学习系统及创建机器学习系统的方法、计算机程序和设备_罗伯特·博世有限公司_201980062924.5

基于迁移学习和对偶学习的轴承故障诊断方法及系统_常熟理工学院_202411057114.X

基于深度强化学习的自适应异步联邦学习方法及系统_齐鲁工业大学(山东省科学院)_202411052338.1

结合增量学习与元学习的预测模型在线更新方法和系统_上海交通大学_202310476516.2

学习突触装置、方法、片上学习系统及模型训练方法_北京航空航天大学_202410967201.2

交互式机器学习模型开发_波音公司_201911023127.4

矩阵相关技术

继电保护出口矩阵动态检测系统_国网江苏省电力有限公司淮安供电分公司_202410843182.2

一种用于矩阵乘法的光计算系统_上海爱德赞医疗科技有限公司_202410999129.1

用于稀疏矩阵乘法的系统和方法_微软技术许可有限责任公司_202380027149.6

一种离子矩阵空气净化机_北京显芃环境应用技术有限公司_202323468045.5

基于穆勒矩阵的硅片反射光偏振应力检测装置及方法_南京理工大学_202111478359.6

基于协方差矩阵的供水管网压力信号异常监测方法及系统_杭州电子科技大学_202411337147.X

基于动态矩阵控制的火电厂烟气换热器控制方法_西安热工研究院有限公司_202211065981.9

基于耦合矩阵张量分解的可学习模式感知实体嵌入方法_海南大学_202410805227.7

着色光敏树脂组合物以及由其制备的黑色矩阵_罗门哈斯电子材料韩国有限公司_201911321487.2

一种利用掉队节点计算能力的编码矩阵乘法方法_福建师范大学_202111339333.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务