一种基于协作谈判的多智能体强化学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：桂林电子科技大学

摘要：本发明公开了一种基于协作谈判的多智能体强化学习方法，属于多智能体强化学习领域，包括对多智能体环境和策略建模，根据智能体的决策收益和当前环境进行协作谈判，利用谈判器生成最优策略，利用最优策略指导智能体长期协作，做出收益相对公平且促进群体最大化的决策行为。本发明中通过谈判器生成领导者的概率分布，依据概率分布选择出多智能体的领导者，然后其余智能体依据领导者的决策对当前环境进行最优策略选择，能够有效解决多智能体的决策冲突，同时有效减少智能体之间的收益差距，保证多智能体长期协作的公平性，促进了多智能体之间达成长期协作意愿，提高了多智能体系统的稳定性。

主权项：1.一种基于协作谈判的多智能体强化学习方法，其特征在于，根据多智能体空间信息定义多智能体环境，对所述多智能体环境和观测空间建模，利用谈判指示器生成最优协作策略，利用协作策略达成长期合作，并保证长期协作下智能体的收益分配公平，促进多智能体系统的长期稳定；利用谈判器模拟训练，并依据训练所得概率分布选择最优协作策略。对于智能体i，其观测信息为oi，包括当前环境、车辆数量、车辆位置和速度等信息，多智能体环境s由各个智能体的观测信息组成，智能体当前环境下的动作由自身策略πi以及其余智能体策略π-i共同决定，其主要过程包括以下步骤：步骤1、智能体在训练阶段共享观测信息，在当前环境下依据其余智能体的策略π-i计算自己在策略πi下的收益。步骤2、谈判器采集各个智能体的观测信息生成效益矩阵，并基于此进行协作谈判最终由谈判指示器给出最终协作策略。

全文数据：

权利要求：

百度查询：桂林电子科技大学一种基于协作谈判的多智能体强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于协作谈判的多智能体强化学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务