批量强化学习

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：谷歌有限责任公司

摘要：用于批量强化学习的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。例如，批量强化学习技术可用于在模拟中确定机器人的控制策略，然后该控制策略可用于在真实世界中控制机器人。一方面，一种方法包括获得多个当前观察值，每个当前观察值表征相应环境副本的当前状态；根据网络参数的当前值，使用动作选择神经网络并行处理当前观察值，以生成动作批；获得包括环境副本中的每一个的相应过渡元组的过渡元组批，每一个环境副本的相应过渡元组包括：i后续观察值和ii奖励；以及在该批过渡元组上训练动作选择神经网络。

主权项：1.一种通过使用多个处理器来处理包括表示神经网络操作的节点和表示神经网络操作的输入和输出数据流的边的计算图来训练动作选择神经网络以选择要由与环境交互的代理执行的动作的方法，其中，所述动作选择神经网络具有多个网络参数，并且被配置为接收输入观察值并且根据所述网络参数处理所述输入观察值以生成网络输出，所述网络输出定义了响应于所述输入观察值而要由所述代理执行的动作，其中所述计算图包括推理子图和训练子图，并且其中，使用所述多个处理器的所述方法包括：获得包括多个当前观察值的观察值批，每一个当前观察值表征多个环境副本中相应一个环境副本的当前状态，其中每个环境副本被分离的进程维持，并且，对于所述多个当前观察值中的每一个，相应环境副本已经使用多个处理器中的可用处理器被并行步骤化处理；根据所述网络参数的当前值，使用所述动作选择神经网络并行地处理观察值批中的当前观察值，以生成动作批，所述动作批包括对于每个环境副本，响应于表征所述环境副本的当前状态的所述当前观察值而要由所述代理执行的相应动作，所述处理包括使用所述多个处理器执行计算图的推理子图，其中，所述推理子图对观察值批中的当前观察值执行用于所述动作选择神经网络的批量推理，以生成每个当前观察值的相应网络输出，并且从每个网络输出中选择相应动作；基于以下各项获得过渡元组批，所述过渡元组批包括每一个环境副本的相应过渡元组：将维持相应环境副本的进程中的每一个限制为响应于由推理子图生成的动作批的对应选择动作，对环境副本进行步骤化处理单次，其中使用所述多个处理器中的可用处理器并行步骤化处理环境副本，并且每个环境副本输出后续观察和奖励；使用获得的后续观察和奖励来生成所述过渡元组批，其中所述对于每一个环境副本的相应过渡元组包括：i表征作为所述代理执行在所述动作批中用于所述环境副本的相应动作的结果，所述环境副本被过渡到的后续状态的后续观察值，以及ii作为所述环境副本过渡到所述后续状态的结果而生成的奖励；和使用强化学习技术在所述过渡元组的批上训练所述动作选择神经网络以更新所述网络参数的当前值，所述训练包括使用所述多个处理器执行计算图的训练子图，其中训练子图以过渡元组批和网络参数的当前值作为输入，并且将强化学习技术应用于批中的训练元组以生成网络参数的更新值。

全文数据：

权利要求：

百度查询：谷歌有限责任公司批量强化学习

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种滚筒气流烘丝机的出口水分的控制方法

下一篇：一种实时检测胶水余量的供胶系统以及点胶系统

相关技术

一种滚筒气流烘丝机的出口水分的控制方法

一种实时检测胶水余量的供胶系统以及点胶系统

一种多线程的VCD文件数据统计工具及其应用方法

烘干消毒装置以及消毒柜

面向分布式存储系统的网络数据流调度方法、设备、程序产品及介质

车身总成及车辆

用于深度学习网络的优化方法及运算系统

储能调频系统运行参数值确定方法、装置、处理器及介质

一种气象对人和装备的影响效应评估方法

一种适用于印刷机的印刷粉回收盒

一种高铁高硫铝土矿脱硫与铁铝资源综合利用方法

通过中间散热器将物体附接到基座

强化相关技术

玻璃基板化学强化炉装置_三星显示有限公司_202011277656.X

一种机匣孔壁表面超声滚压强化装置及其强化方法_中国航发北京航空材料研究院_202211410196.2

一种抗穿刺强化消防水带_福建省广渤消防器材有限公司_202420447687.2

纤维强化树脂成形体及其制造方法_东丽株式会社_202380026562.0

耐候性强化型隐藏式通风幕墙_云南艺康装饰工程有限公司_202410993003.3

使用元策略探索环境的强化学习_渊慧科技有限公司_202380027393.2

一种钢球强化机用滚筒_东阿县金兴金属科技有限公司_202323425617.1

一种电场强化高效原油脱水设备_中海石油(中国)有限公司_202411029612.3

一种换热管强化换热导流装置_哈尔滨商业大学_202420529599.7

一种建筑用再生骨料强化设备_湖北慧迪长盛科技有限公司_202420517276.6

批量相关技术

电池片批量切割装置_润马光能科技(金华)有限公司_202411353897.6

一种批量喂料机_无锡前行机械科技有限公司_202420564429.2

一种试管批量消毒装置_绵阳富临医院有限公司_202420469188.3

数据批量导出方法、设备及介质_广州高新兴网联科技有限公司_202410817290.2

一种门窗铝型材批量切割装置_河南天冠铝业有限公司_202411272402.7

锂电池批量检测辅助工装_自贡市吉欣科技有限公司_202420346998.X

一种导电线批量抓取装置_常州金康精工机械股份有限公司_202210437632.9

一种注塑件批量喷涂机构_中山市顺瑞汽车零部件有限公司_202323527239.8

五金件批量开孔设备_上海品闽实业有限公司_202420446359.0

一种镜头模组同心度批量检测设备_浙江师范大学_201911334984.6

学习相关技术

执行机器学习模型_瑞典爱立信有限公司_201980097196.1

批量强化学习_谷歌有限责任公司_201880038408.4

一种基于元学习的含噪声标签学习方法_昆明理工大学_202410956879.0

基于深度学习的个性化学习内容推荐系统_刘勇_202411149327.5

机器学习系统及创建机器学习系统的方法、计算机程序和设备_罗伯特·博世有限公司_201980062924.5

基于深度强化学习的自适应异步联邦学习方法及系统_齐鲁工业大学(山东省科学院)_202411052338.1

基于迁移学习和对偶学习的轴承故障诊断方法及系统_常熟理工学院_202411057114.X

结合增量学习与元学习的预测模型在线更新方法和系统_上海交通大学_202310476516.2

学习突触装置、方法、片上学习系统及模型训练方法_北京航空航天大学_202410967201.2

交互式机器学习模型开发_波音公司_201911023127.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

批量强化学习

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务