Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜华为技术有限公司;清华大学庄雨铮获国家专利权

恭喜华为技术有限公司;清华大学庄雨铮获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜华为技术有限公司;清华大学申请的专利强化学习的训练方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN111783994B

龙图腾网通过国家知识产权局官网在2025-03-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202010476913.6,技术领域涉及:G06N3/092;该发明授权强化学习的训练方法和装置是由庄雨铮;张劲;刘武龙;张崇洁设计研发完成,并于2020-05-29向国家知识产权局提交的专利申请。

强化学习的训练方法和装置在说明书摘要公布了:本申请提供了一种强化学习的训练方法和装置,可以提高元强化学习的探索效率,以实现对新任务的快速适应。该方法包括:初始化上下文任务编码器、探索策略和利用策略;执行根据第一环境信息、上下文任务编码器和探索策略获取的第一行为,以得到基于第一行为的第一样本,第一样本包括环境响应于第一行为的第一反馈;执行根据第二环境信息、上下文任务编码器和利用策略获取的第二行为,以得到基于第二行为的第二样本,第二样本包括环境响应于第二行为的第二反馈;根据第一反馈和第二反馈对探索策略和利用策略进行优化。

本发明授权强化学习的训练方法和装置在权利要求书中公布了:1.一种强化学习的训练方法,其特征在于,包括:初始化上下文任务编码器、探索策略和利用策略,所述上下文任务编码器、所述探索策略和所述利用策略为三个神经网络模型;执行根据第一环境信息、所述上下文任务编码器和所述探索策略获取的第一行为,以得到基于所述第一行为的第一样本,所述第一样本包括环境响应于所述第一行为的第一反馈;执行根据第二环境信息、所述上下文任务编码器和所述利用策略获取的第二行为,以得到基于所述第二行为的第二样本,所述第二样本包括环境响应于所述第二行为的第二反馈,所述第一行为和所述第二行为均为智能载体的行为,所述智能载体包括固定机器人和移动机器人;根据所述第一反馈和所述第二反馈对所述探索策略和所述利用策略进行优化,以适应任务,所述任务为在特定环境下执行相应的行为来达到预设的目标;所述根据所述上下文任务编码器和第一环境信息执行基于所述探索策略的第一行为,以获取基于所述第一行为的第一样本,包括:获取所述第一环境信息作为所述上下文任务编码器的输入,以获得第一输出;将所述第一输出作为所述探索策略的输入,以获得所述第一行为;执行所述第一行为,以得到所述第一样本;所述根据所述上下文任务编码器和第二环境信息执行基于所述利用策略的第二行为,以获取基于所述第二行为的第二样本,包括:获取所述第二环境信息作为所述上下文任务编码器的输入,以获得第二输出;将所述第二输出作为所述利用策略的输入,以获得所述第二行为;执行所述第二行为,以得到所述第二样本。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华为技术有限公司;清华大学,其通讯地址为:518129 广东省深圳市龙岗区坂田华为总部办公楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。