买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:方法、系统和装置,包括在计算机存储介质上编码的计算机程序,用于使智能体能够以改进其集体效率的方式相互合作。智能体可以通过考虑其他智能体的行为来修改其行为,从而可以实现比每个智能体独立行动更好的总体结果。这是通过使智能体能够相互协商限制其相应的动作的合约来实现的。
主权项:1.一种控制第一智能体在环境中执行任务的计算机实现的方法,在所述环境中所述第一智能体与执行一个或多个其他任务的一个或多个其他智能体交互,其中,所述第一智能体具有动作选择子系统和价值神经网络,所述动作选择子系统被配置为处理表征所述环境的状态的状态表示以生成用于选择要由所述智能体执行的动作的策略输出,所述价值神经网络被配置为处理所述状态表示以确定状态值,其中,所述状态值定义所述智能体的从由所述状态表示表征的所述环境的所述状态的期望回报;其中,所述第一智能体在多个时间步中的每个时间步处:获得表征当前时间步处的所述环境的所述状态的状态表示;使用所述智能体的所述动作选择子系统处理所述状态表示以生成针对所述第一智能体的所述策略输出;使用所述状态表示确定所述其他智能体的预测动作;以及使用针对所述第一智能体的所述策略输出,取决于所述其他智能体的所述预测动作来选择供所述第一智能体执行的动作;所述方法包括,在所述时间步中的一个或多个时间步处:所述第一智能体与第二智能体协商合约,其中,所述第二智能体是所述其他智能体中的一个,所述合约定义了对可能由所述第一智能体选择的动作的限制以及对可能由所述第二智能体选择的动作的限制;其中,协商所述合约包括所述第一智能体通过以下操作来确定是否提议合约:通过模拟(i)在没有所提议的合约的情况下以及ii)在考虑所提议的合约中对所述动作的所述限制的影响的情况下所述第一智能体和所述其他智能体的未来动作的影响,来确定一个或多个得分,所述一个或多个得分表示在有所提议的合约的情况下和没有所提议的合约的情况下,在后续时间步处的对所述第一智能体的所述环境的所述状态的期望值,以及取决于所述一个或多个得分将所提议的合约传送给所述第二智能体;以及响应于从所述第二智能体接收到接受所提议的合约的指示,考虑所提议的合约中对所述第一智能体的所述动作的所述限制来选择供所述第一智能体执行的动作。
全文数据:
权利要求:
百度查询: 渊慧科技有限公司 多智能体系统中智能体合作的合约协商
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。