买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学院软件研究所;中国科学院计算技术研究所
摘要:本发明公开了一种子任务语义不变的多智能体策略模型迁移方法与系统。本发明通过可扩展子任务编码器将待执行的多智能体任务编码为可执行的子任务,并将该子任务分配给执行多智能体任务中的每个智能体,然后通过自适应动作解码器将分配好的子任务以及当前智能体的观测数据来计算出智能体与环境交互的具体动作;当待执行的多智能体任务发生变化时,可扩展子任务编码器和自适应动作解码器可确保分配的子任务在各个多智能体任务间具有一致且可扩展的语义,同时分解到的子任务赋予了任务独立性,进而实现多智能体策略模型在各个多智能体任务间的模型迁移。本发明可实现多智能体策略模型在各个多智能体任务间的模型迁移。
主权项:1.一种子任务语义不变的多智能体策略模型迁移方法,其步骤包括:1初始化跨任务通用的模型结构,得到智能体的运行环境;其中,将跨任务通用的模型中受多智能体强化学习策略控制的智能体和任务内置的智能体均定义为实体,n表示智能体的数量,m表示实体的数量,nally表示每一智能体的盟友数量,nenemy表示每一智能体的敌人数量,n=nally+1,m=n+nenemy;定义智能体i的实体观测向量oi=[oi,1,oi,2,…,oi,m],oi,1为智能体i对自身和环境的观测,oi,m为智能体i对第m-1个实体的观测;构建一多智能体策略模型,包括可扩展子任务编码器、自适应动作解码器;所述可扩展子任务编码器包括认知编码器、Gaussian内积组件、环境认知组件、GRU轨迹编码器、Gumbel归一化函数;所述自适应动作解码器包括自适应子任务语义模块、执行动作计算模块;2对于t时刻智能体i的实体观测向量所述认知编码器将实体观测向量中智能体i对第j个实体的实体观测向量编码为Gaussian分布的均值向量与方差向量3所述Gaussian内积组件将Gaussian分布的均值向量与方差向量转换为实体观测向量4所述环境认知组件将实体观测向量编码为实体观测嵌入向量5所述GRU轨迹编码器根据实体观测嵌入向量t-1时刻智能体i分配的子任务和隐藏历史表示向量获取时刻t智能体i的隐藏历史表示向量6所述Gumbel归一化函数使用离散随机变量的重参数化算子Gumbel-Softmax基于t时刻的隐藏历史表示向量计算智能体i时刻t所分配的子任务7所述自适应子任务语义模块将子任务编码为子任务嵌入向量8所述执行动作计算模块将子任务嵌入向量作为注意力机制中的查询、实体观测向量作为注意力机制中的键和值,构建自适应子任务语义向量表示t时刻智能体i与第m个实体交互的动作语义;然后将自适应子任务语义向量和第j个动作语义的相似性作为对应动作的价值或概率确定t时刻智能体i与第j个实体交互的交互动作,j=1,…,m;9基于智能体与环境交互得到的数据轨迹对所述多智能体策略模型进行训练;10将步骤9训练后的多智能体策略模型迁移至目标场景上。
全文数据:
权利要求:
百度查询: 中国科学院软件研究所 中国科学院计算技术研究所 一种子任务语义不变的多智能体策略模型迁移方法与系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。