买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海大学
摘要:本申请公开一种基于模糊推理的多智能体任务分配方法、系统及介质,涉及多智能体强化学习领域,方法包括:获取所有智能体历史时刻的多维特征以及所有子任务历史时刻的多维特征,并根据所有子任务的均值和协方差,确定基于模糊推理的子任务选择器网络;利用子任务评估网络,以第一TD损失函数最小为目标对子任务选择器网络和子任务策略网络进行训练;利用智能体信用分配网络,以第二TD损失函数最小为目标对智能体策略网络进行训练;将每个智能体当前时刻的局部观测信息、上一时刻的执行动作和上一时刻的子任务依次输入训练后的智能体策略网络和基于模糊推理的子任务选择器网络,进行子任务分配。本申请提高了多智能体任务分配的效率和准确率。
主权项:1.一种基于模糊推理的多智能体任务分配方法,其特征在于,所述基于模糊推理的多智能体任务分配方法包括:确定智能体团队的协同任务场景;所述智能体团队包括多个智能体;所述协同任务场景下布置有多个子任务;利用高斯拟合过程对所述协同任务场景进行自适应分解,确定每个子任务的均值和协方差,并对每个子任务的均值和协方差进行在线更新;获取所有智能体历史时刻的多维特征以及所有子任务历史时刻的多维特征,并根据所有子任务的均值和协方差,确定基于模糊推理的子任务选择器网络;所述多维特征包括:动作序列、历史轨迹和贡献价值;构建双时间尺度的分层协同架构;所述分层协同架构的顶层包括:基于模糊推理的子任务选择器网络、子任务评估网络和多个子任务策略网络;所述分层协同架构的底层包括:智能体信用分配网络和智能体策略网络;所述子任务评估网络用于评估每个子任务的执行进度并确定总任务价值;所述总任务价值表征所述协同任务场景的执行进度;所述子任务策略网络用于确定子任务的多维特征;所述智能体信用分配网络用于评估每个智能体对所述智能体团队的贡献并确定团队价值;所述团队价值表征所述智能体团队在所述协同任务场景中的整体效率;所述智能体策略网络用于确定智能体的多维特征和动作价值;利用所述子任务评估网络,以第一TD损失函数最小为目标对基于模糊推理的子任务选择器网络和所述子任务策略网络进行训练;所述第一TD损失函数中增加了子任务的内在奖励和累计的环境奖励;利用所述智能体信用分配网络,以第二TD损失函数最小为目标对所述智能体策略网络进行训练;将每个智能体当前时刻的局部观测信息、上一时刻的执行动作和上一时刻的子任务输入训练后的智能体策略网络,更新每个智能体的多维特征;所述局部观测信息至少包括:当前智能体的位置和速度,以及,当前智能体观测范围内其他智能体的位置和速度;将每个智能体更新的多维特征输入训练后的基于模糊推理的子任务选择器网络,进行子任务分配。
全文数据:
权利要求:
百度查询: 上海大学 基于模糊推理的多智能体动态任务分配方法、系统及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。