买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西北工业大学
摘要:本发明公开了一种基于显式信用分配的合作多智能体协同方法。其中,该方法包括:获取每一智能体的初始状态信息、初始动作信息和历史动作信息,其中,初始状态信息、初始动作信息为当前时刻每一智能体观测到的除过自身智能体的剩余智能体的初始状态信息和初始动作信息,历史动作信息为当前时刻的前一时刻的所述每一智能体的历史动作信息。本发明解决了现有技术在合作多智能体系统对全局奖励分配时,隐式方法受到分解函数设计的限制,导致分解不够充分,并且在信用分配方面缺乏可解释性,显式方法:在涉及微妙联盟的共同目标下非常复杂,进而因全局奖励分配不明确而导致的协同合作困难技术问题。
主权项:1.一种基于显式信用分配的合作多智能体协同方法,其特征在于,包括:获取每一智能体的初始状态信息、初始动作信息和历史动作信息,其中,所述初始状态信息、初始动作信息为当前时刻每一智能体观测到的除过自身智能体的剩余智能体的初始状态信息和初始动作信息,历史动作信息为当前时刻的前一时刻的所述每一智能体的历史动作信息;通过所述每一智能体对应的每一智能体网络对所述初始状态信息、初始动作信息和历史动作信息进行处理,输出每一智能体的当前动作信息,其中,所述当前动作信息为在所述当前时刻时每一智能体的动作信息;通过融合网络对所述每一智能体初始状态信息、初始动作信息和当前动作信息进行特征融合,得到所有智能体的全局奖励值;遍历所述每一智能体,计算所述每一智能体在多个不同智能体联盟中的边际贡献值;基于所述每一智能体对应的边际贡献值,确定每一智能体的第一夏普利值;对计算每一智能体的边际贡献值时的联盟组合进行采样,基于采样后得到的每一智能体的边际贡献值,得到所述每一智能体的第二夏普利值,其中,所述第二夏普利值为所述第一夏普利值的近似值;基于所述每一智能体的第二夏普利值、税率和每一智能体的所有联盟智能体的总数,确定所述全局奖励值对应的每一智能体的目标信用分配值;所述每一智能体的目标信用分配值对所述每一智能体网络的参数进行更新。
全文数据:
权利要求:
百度查询: 西北工业大学 一种基于显式信用分配的合作多智能体协同方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。