使用元策略探索环境的强化学习

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：渊慧科技有限公司

摘要：本发明描述了由一个或多个计算机执行并且用于训练基本策略神经网络的方法，该基本策略神经网络被配置为接收包括环境的状态的观察的基本策略输入并处理策略输入以生成基本策略输出，该基本策略输出定义了响应于观察要由代理执行的动作，该方法包括：通过使用i基本策略神经网络和ii探索计策控制代理来生成用于训练基本策略神经网络的训练数据，所述探索计策根据一个或多个参数的集合将由基本策略神经网络生成的基本策略输出映射到由代理执行以与环境交互的动作，所述生成包括，在多个时间点中的每个时间点：在所述时间点确定满足用于更新探索计策的标准；以及响应于确定满足所述标准：生成元策略输入，所述元策略输入包括表征基本策略神经网络在所述时间点控制代理的性能的数据；使用元策略处理元策略输入以生成元策略输出，所述元策略输出指定用于定义探索计策的所述一个或多个参数的集合中的每个的相应值；以及使用基本策略神经网络并根据由元策略输出指定的一个或多个参数的集合的相应值定义的探索计策来控制代理。

主权项：1.一种由一个或多个计算机执行并且用于训练基本策略神经网络的方法，所述基本策略神经网络被配置为接收包括环境的状态的观察的基本策略输入，并且处理所述策略输入以生成定义要由代理响应于所述观察而执行的动作的基本策略输出，所述方法包括：通过使用i所述基本策略神经网络和ii探索计策控制代理来生成用于训练所述基本策略神经网络的训练数据，所述探索计策根据一个或多个参数的集合将由所述基本策略神经网络生成的基本策略输出映射到由所述代理执行以与环境交互的动作，所述生成包括，在多个时间点中的每个时间点：确定在所述时间点满足用于更新所述探索计策的标准；以及响应于确定满足所述标准：生成元策略输入，所述元策略输入包括表征所述基本策略神经网络在所述时间点控制所述代理的性能的数据；使用元策略处理所述元策略输入以生成元策略输出，所述元策略输出指定用于定义所述探索计策的所述一个或多个参数的集合中的每个的相应值；以及使用所述基本策略神经网络并根据由所述元策略输出指定的所述一个或多个参数的集合的所述相应值定义的所述探索计策，来控制所述代理。

全文数据：

权利要求：

百度查询：渊慧科技有限公司使用元策略探索环境的强化学习

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：通过中间散热器将物体附接到基座

下一篇：一种基于边缘计算的污染排放多源监测分析系统及方法

相关技术

通过中间散热器将物体附接到基座

一种基于边缘计算的污染排放多源监测分析系统及方法

试管图像处理方法、装置、电子设备及存储介质

一种实时检测胶水余量的供胶系统以及点胶系统

一种应急干预计划的生成方法和系统

数据传输处理方法、装置及设备

一种污染空气净化方法

一种基于协同强化学习的多无人机轨迹规划和数据收集方法

车身总成及车辆

一种滚筒气流烘丝机的出口水分的控制方法

精锂液除钙处理分离装置及方法

一种双机器人大范围协同测量方法和系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

使用元策略探索环境的强化学习

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务