恭喜渊慧科技有限公司W.恰尔内茨基获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜渊慧科技有限公司申请的专利使用代理课程的强化学习获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN112154458B 。
龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:201980032894.3,技术领域涉及:G06N3/092;该发明授权使用代理课程的强化学习是由W.恰尔内茨基;S.贾亚库马尔设计研发完成,并于2019-05-20向国家知识产权局提交的专利申请。
本使用代理课程的强化学习在说明书摘要公布了:使用代理课程进行强化学习的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。
本发明授权使用代理课程的强化学习在权利要求书中公布了:1.一种训练用于选择要由代理执行的动作的最终代理策略神经网络的方法,所述代理通过执行使用所述最终代理策略神经网络选择的动作来与环境交互,以执行强化学习任务,所述方法包括: 维护指定多个候选代理策略神经网络的数据,其中所述多个候选代理策略神经网络包括所述最终代理策略神经网络,并且其中所述最终代理策略神经网络为所述代理定义比至少一个其他候选代理策略神经网络所定义的动作选择策略更复杂的动作选择策略,其中所述更复杂的动作选择策略是需要更多训练步骤来训练的动作选择策略; 初始化为所述候选代理策略神经网络中的每一个分配相应权重的混合数据; 联合训练所述多个候选代理策略神经网络以执行所述强化学习任务,包括,在多个训练迭代的每一个中: 获得包括对环境的观测数据的训练网络输入,其中,所述观测数据是图像、对象位置数据、传感器数据和电子信号中的一个或多个,或者图像、对象位置数据、传感器数据和电子信号中的一个或多个的模拟版本, 使用所述候选代理策略神经网络并且根据该训练迭代时的混合数据中的权重,使用所述训练网络输入生成组合的动作选择策略, 使用所述组合的动作选择策略来选择在环境中由代理执行的动作,使得代理通过执行使用所述组合的动作选择策略选择的动作来与环境交互,以及 使用强化学习技术训练所述候选代理策略神经网络,以生成导致在所述强化学习任务上的性能提高的组合的动作选择策略;以及 在训练期间,根据定义的性能度量,反复地调整所述混合数据中的权重,以支持更高性能的候选代理策略神经网络,所述定义的性能度量基于在使用所述组合的动作选择策略或仅使用所述最终代理策略神经网络控制代理时,由所述代理在任务的最后k个回合接收的奖励的测量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人渊慧科技有限公司,其通讯地址为:英国伦敦;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。