买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:渊慧科技有限公司
摘要:本发明描述了由一个或多个计算机执行并且用于训练基本策略神经网络的方法,该基本策略神经网络被配置为接收包括环境的状态的观察的基本策略输入并处理策略输入以生成基本策略输出,该基本策略输出定义了响应于观察要由代理执行的动作,该方法包括:通过使用i基本策略神经网络和ii探索计策控制代理来生成用于训练基本策略神经网络的训练数据,所述探索计策根据一个或多个参数的集合将由基本策略神经网络生成的基本策略输出映射到由代理执行以与环境交互的动作,所述生成包括,在多个时间点中的每个时间点:在所述时间点确定满足用于更新探索计策的标准;以及响应于确定满足所述标准:生成元策略输入,所述元策略输入包括表征基本策略神经网络在所述时间点控制代理的性能的数据;使用元策略处理元策略输入以生成元策略输出,所述元策略输出指定用于定义探索计策的所述一个或多个参数的集合中的每个的相应值;以及使用基本策略神经网络并根据由元策略输出指定的一个或多个参数的集合的相应值定义的探索计策来控制代理。
主权项:1.一种由一个或多个计算机执行并且用于训练基本策略神经网络的方法,所述基本策略神经网络被配置为接收包括环境的状态的观察的基本策略输入,并且处理所述策略输入以生成定义要由代理响应于所述观察而执行的动作的基本策略输出,所述方法包括:通过使用i所述基本策略神经网络和ii探索计策控制代理来生成用于训练所述基本策略神经网络的训练数据,所述探索计策根据一个或多个参数的集合将由所述基本策略神经网络生成的基本策略输出映射到由所述代理执行以与环境交互的动作,所述生成包括,在多个时间点中的每个时间点:确定在所述时间点满足用于更新所述探索计策的标准;以及响应于确定满足所述标准:生成元策略输入,所述元策略输入包括表征所述基本策略神经网络在所述时间点控制所述代理的性能的数据;使用元策略处理所述元策略输入以生成元策略输出,所述元策略输出指定用于定义所述探索计策的所述一个或多个参数的集合中的每个的相应值;以及使用所述基本策略神经网络并根据由所述元策略输出指定的所述一个或多个参数的集合的所述相应值定义的所述探索计策,来控制所述代理。
全文数据:
权利要求:
百度查询: 渊慧科技有限公司 使用元策略探索环境的强化学习
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。