买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:渊慧科技有限公司
摘要:用于训练和使用机器学习系统来控制代理执行任务的系统、方法和计算机程序。机器学习系统使用反事实内部状态来训练,使得它可以提供以因果术语解释系统行为的输出,例如,就其环境的使系统为代理选择特定动作的方面而言。
主权项:1.一种训练机器学习系统的计算机实现的方法,所述机器学习系统被配置为监视环境中执行任务的代理的控制,其中,所述机器学习系统被配置为,对于一系列时间步骤中的每个时间步骤:获得表征当前时间步骤的环境状态的观察;使用所述机器学习系统的动作选择子系统来处理所述机器学习系统在所述当前时间步骤处的内部状态以生成动作选择策略输出,其中所述机器学习系统在所述当前时间步骤处的所述内部状态取决于所述当前时间步骤的所述观察;使用解码器神经网络处理所述机器学习系统在所述当前时间步骤处的所述内部状态,以生成所述当前时间步骤的解码器输出,其中,所述当前时间步骤的所述解码器输出描述所述机器学习系统在所述当前时间步骤处的所述内部状态;响应于所述观察,使用所述动作选择策略输出来选择要由所述代理在所述当前时间步骤处执行的动作;使所述代理执行所选择的动作;以及提供从所述当前时间步骤的所述解码器输出导出的信号作为用于监视所述环境中的所述代理的控制的监视信号;所述方法包括通过以下方式训练所述机器学习系统:通过使用内部状态更新子系统处理所述当前时间步骤的解码器输出、下一时间步骤的观察和反事实内部状态的组合来确定所述机器学习系统在下一时间步骤的内部状态,其中所述反事实内部状态不同于所述机器学习系统在所述当前时间步骤处的内部状态。
全文数据:
权利要求:
百度查询: 渊慧科技有限公司 具有反事实干预的机器学习系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。