买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中科南京人工智能创新研究院
摘要:本发明公开了一种基于角色分配的异构动作表征多智能强化学习方法和系统,该方法包括通过角色向量表征学习,将所有智能体分为不同的角色组,每一个角色负责预定的子任务,同一角色的智能体共享策略网络;在每个时间步为智能体分配一个预定的角色,从智能体的历史轨迹信息中抽取出身份信息,将轨迹信息编码为用于表示其角色身份的隐式信息,利用该隐式信息判断当前智能体所属角色;在预定角色下,根据智能体角色动态决定不同对手的关注程度,利用带有异构动作表征的角色策略,根据角色动态分析对手信息,评估动作价值,从而用于为每一个智能体进行差异化策略学习。解决了多智能体强化学习过程中采用参数共享策略导致智能体策略同质化的问题。
主权项:1.基于角色分配的异构动作表征多智能强化学习方法,其特征在于,包括如下步骤:步骤S1、通过角色向量表征学习,将所有智能体分为不同的角色组,每一个角色负责预定的子任务,同一角色的智能体共享策略网络;步骤S2、在每个时间步为智能体分配一个预定的角色,从智能体的历史轨迹信息中抽取出身份信息,将轨迹信息编码为用于表示其角色身份的隐式信息,利用该隐式信息判断当前智能体所属角色;步骤S3、在预定角色下,根据智能体角色动态决定不同对手的关注程度,利用带有异构动作表征的角色策略,根据角色动态分析对手信息,评估动作价值,从而用于为每一个智能体进行差异化策略学习;步骤S1具体为:步骤S11、接收预定义的角色数量和角色向量维度作为系统初始化参数;步骤S12、基于初始化参数,构建一个两层线性网络作为角色编码器,其中该编码器的输入层维度等于角色数量,输出层维度等于角色向量维度;步骤S13、根据角色数量,生成一组角色独热向量,其中每个角色独热向量对应一个预定角色,且角色向量维度等于角色数量;步骤S14、将角色独热向量依次输入到角色编码器中,得到相应的角色向量表征,其中每个角色向量表征的维度等于角色向量维度;步骤S15、将角色向量表征存储在系统存储结构中,其中每个角色向量表征与其对应的角色索引形成键值对;步骤S2具体为:步骤S21、获取智能体的历史轨迹信息,并利用线性层和门控循环单元对其进行处理,得到动作-观测历史信息;步骤S22、基于动作-观测历史信息,构建本地轨迹编码器网络,该网络为全连接网络,其输出维度与角色向量表征的维度相同;步骤S23、将动作-观测历史信息输入到本地轨迹编码器网络中,得到表示智能体身份的隐式信息;步骤S24、利用智能体身份的隐式信息和存储的角色向量表征,计算智能体与各个角色的匹配程度,其中匹配程度通过计算隐式信息与角色向量表征的点积得到;步骤S25、对匹配程度应用Softmax函数,得到角色分配概率分布;步骤S26、基于角色分配概率分布,采用随机采样方法为智能体选择一个具体角色,得到角色选择结果,并将角色选择结果表示为一个独热向量;步骤S27、将角色选择结果与智能体的当前状态信息结合,形成智能体的完整状态表示,并存储以供后续步骤使用;步骤S3具体为:步骤S31、获取智能体的完整状态表示,以及预定义的私有动作集和交互动作集;步骤S32、构建私有动作处理网络,包括一个两层全连接网络和一个门控循环单元,将智能体的完整状态表示输入其中,得到私有动作表征;步骤S33、基于私有动作表征,通过一个全连接网络计算私有动作集中所有动作的价值,得到私有动作价值;步骤S34、对于交互动作集,首先获取智能体对其他智能体的观测信息,并通过目标观测编码器网络处理,得到历史轨迹信息;步骤S35、基于智能体的角色信息,通过角色解码网络生成角色策略网络的参数;步骤S36、利用角色策略网络参数构建角色策略网络,将历史轨迹信息输入角色策略网络中,得到交互动作表征;步骤S37、结合私有动作表征和交互动作表征,计算交互动作集中所有动作的价值,得到交互动作价值;步骤S38、合并私有动作价值和交互动作价值,得到智能体的完整动作价值向量;步骤S39、对所有智能体重复步骤S31到步骤S38,得到所有智能体的动作价值向量集合;步骤S310、使用QMIX网络处理所有智能体的动作价值向量集合,得到全局动作价值;步骤S311、基于所得全局动作价值,计算时序差分误差,并利用该误差更新QMIX网络和其他相关网络的参数。
全文数据:
权利要求:
百度查询: 中科南京人工智能创新研究院 基于角色分配的异构动作表征多智能强化学习方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。