一种子任务语义不变的多智能体策略模型迁移方法与系统

导航：龙图腾网> 最新专利技术> 一种子任务语义不变的多智能体策略模型迁移方法与系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国科学院软件研究所;中国科学院计算技术研究所

摘要：本发明公开了一种子任务语义不变的多智能体策略模型迁移方法与系统。本发明通过可扩展子任务编码器将待执行的多智能体任务编码为可执行的子任务，并将该子任务分配给执行多智能体任务中的每个智能体，然后通过自适应动作解码器将分配好的子任务以及当前智能体的观测数据来计算出智能体与环境交互的具体动作；当待执行的多智能体任务发生变化时，可扩展子任务编码器和自适应动作解码器可确保分配的子任务在各个多智能体任务间具有一致且可扩展的语义，同时分解到的子任务赋予了任务独立性，进而实现多智能体策略模型在各个多智能体任务间的模型迁移。本发明可实现多智能体策略模型在各个多智能体任务间的模型迁移。

主权项：1.一种子任务语义不变的多智能体策略模型迁移方法，其步骤包括：1初始化跨任务通用的模型结构，得到智能体的运行环境；其中，将跨任务通用的模型中受多智能体强化学习策略控制的智能体和任务内置的智能体均定义为实体，n表示智能体的数量，m表示实体的数量，nally表示每一智能体的盟友数量，nenemy表示每一智能体的敌人数量，n＝nally+1,m＝n+nenemy；定义智能体i的实体观测向量oi＝[oi,1,oi,2,…,oi,m]，oi,1为智能体i对自身和环境的观测，oi,m为智能体i对第m-1个实体的观测；构建一多智能体策略模型，包括可扩展子任务编码器、自适应动作解码器；所述可扩展子任务编码器包括认知编码器、Gaussian内积组件、环境认知组件、GRU轨迹编码器、Gumbel归一化函数；所述自适应动作解码器包括自适应子任务语义模块、执行动作计算模块；2对于t时刻智能体i的实体观测向量所述认知编码器将实体观测向量中智能体i对第j个实体的实体观测向量编码为Gaussian分布的均值向量与方差向量3所述Gaussian内积组件将Gaussian分布的均值向量与方差向量转换为实体观测向量4所述环境认知组件将实体观测向量编码为实体观测嵌入向量5所述GRU轨迹编码器根据实体观测嵌入向量t-1时刻智能体i分配的子任务和隐藏历史表示向量获取时刻t智能体i的隐藏历史表示向量6所述Gumbel归一化函数使用离散随机变量的重参数化算子Gumbel-Softmax基于t时刻的隐藏历史表示向量计算智能体i时刻t所分配的子任务7所述自适应子任务语义模块将子任务编码为子任务嵌入向量8所述执行动作计算模块将子任务嵌入向量作为注意力机制中的查询、实体观测向量作为注意力机制中的键和值，构建自适应子任务语义向量表示t时刻智能体i与第m个实体交互的动作语义；然后将自适应子任务语义向量和第j个动作语义的相似性作为对应动作的价值或概率确定t时刻智能体i与第j个实体交互的交互动作，j＝1,…,m；9基于智能体与环境交互得到的数据轨迹对所述多智能体策略模型进行训练；10将步骤9训练后的多智能体策略模型迁移至目标场景上。

全文数据：

权利要求：

百度查询：中国科学院软件研究所中国科学院计算技术研究所一种子任务语义不变的多智能体策略模型迁移方法与系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种阻尼棒活塞型粘滞阻尼器

下一篇：一种基于过滤原理的胶内蛋白酶解前处理方法

相关技术

一种阻尼棒活塞型粘滞阻尼器

一种基于过滤原理的胶内蛋白酶解前处理方法

水稻OsABCC1基因及其突变体序列在调控稻米镉积累方面的方法和应用

一种汽车钣金件自动焊接设备及其方法

一种用于循环流化床锅炉的尿素溶液喷射装置

一种大豆栽培用灌溉装置

一种分离回收装置、方法及塑料碎片再加工工艺

一种海洋污水处理装置

制冷设备控制方法、装置、制冷设备及存储介质

宽流量范围供气切换装置、航天发动机及液体火箭

在球队运动中进行交互的、可说明的且改进的比赛和球员表现预测的方法和系统

三卡盘坡口切管机

策略相关技术

面向数据安全保护的动态加密策略调整系统_河北翎贺计算机信息技术有限公司_202411365270.2

资材备件采购策略管理方法及系统_欧冶工业品股份有限公司_202410936993.7

一种跨域异构无人集群博弈对抗策略生成方法及系统_南京瀚海伏羲防务科技有限公司_202410914834.7

确定躲避非机动车策略的方法及装置、一种车辆_北京小马睿行科技有限公司_202210563899.2

基于车网交互策略优化的电动汽车充电负荷短期预测方法_国网湖北省电力有限公司营销服务中心(计量中心)_202410963459.5

一种开关切换策略执行方法、装置、设备及存储介质_珠海格力电器股份有限公司_202410906866.2

数控机床的维修策略生成方法、系统、设备、介质及产品_中科航迈数控软件(深圳)有限公司_202411390035.0

一种基于混合锁策略的政务表单防抖方法及系统_上海通办信息服务有限公司_202410858583.5

确认ACK反馈策略配置、ACK反馈方法及装置、存储介质_北京小米移动软件有限公司_202080001151.2

一种混动车型预测性能量管理策略_北京汽车股份有限公司_202410915669.7

智能相关技术

智能设备_杭州萤石软件有限公司_202420178440.5

一种智能电表及其智能电表控制模块_浙江美硕电气科技股份有限公司_202410913946.0

智能家用电器及智能家居系统_合肥美的电冰箱有限公司_202323503600.3

智能温度变送器_国网宁夏电力有限公司石嘴山供电公司_202110269681.1

智能称重系统_湖南鱼于渊黑坑技术服务有限公司_202420584110.6

智能安全蒸饭柜_浙江揭迪智能科技有限公司_202323038760.5

声光智能驱散系统_广州市声讯电子科技股份有限公司_202420013953.0

IGBT智能产线_昆山福赫曼智能设备有限公司_202010149761.9

智能穿戴设备_瑞声声学科技(深圳)有限公司_202420341812.1

智能磁疗仪_北京圣骨堂健康管理发展有限公司_202322810493.2

体相关技术

透镜部、层叠体、显示体、显示体的制造方法及显示方法_日东电工株式会社_202380027570.7

透镜部、层叠体、显示体、显示体的制造方法及显示方法_日东电工株式会社_202380027578.3

移动体馈电系统以及移动体装置_胜美达集团株式会社_202380026842.1

复合结构体、叶片_中材科技风电叶片股份有限公司_202010355724.3

假体心脏瓣膜_拉普拉斯介入股份有限公司_202380019153.8

髋臼假体_浙江大学医学院附属第一医院_202323574410.0

假体心脏瓣膜_爱德华兹生命科学公司_202010504659.6

陶瓷结构体_京瓷株式会社_202380027366.5

高温熔体测量装置_上海煜志科技有限公司_202420275449.8

磁性体和磁性元件_株式会社东金_202380027039.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种子任务语义不变的多智能体策略模型迁移方法与系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务