恭喜上海交通大学张伟楠获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜上海交通大学申请的专利一种基于数据模仿和课程学习的离线强化学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114219085B 。
龙图腾网通过国家知识产权局官网在2025-03-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111544237.2,技术领域涉及:G06N3/092;该发明授权一种基于数据模仿和课程学习的离线强化学习方法是由张伟楠;刘明桓;赵寒烨设计研发完成,并于2021-12-16向国家知识产权局提交的专利申请。
本一种基于数据模仿和课程学习的离线强化学习方法在说明书摘要公布了:本发明公开了一种基于数据模仿和课程学习的离线强化学习方法,涉及离线强化学习领域。该方法使用当前的学习到的策略,对数据集中的每条轨迹的每个数据点进行标记,标记为当前策略采样出该数据点的概率;对每条轨迹中的数据点排序;以beta分位点的数据作为该条轨迹的标记;无放回选择N条标记最大的轨迹;对选择的轨迹数据进行模仿学习;以先前选择的轨迹的奖励水平以滑动平均的方式更新奖励水平过滤器;过滤数据集中奖励水平低于过滤器值的轨迹。本发明基于模仿学习,通过课程学习的方式,逐步从数据集中选择合适的数据进行学习,从而可以稳定学习到数据集中的最好表现的策略,且可以避免现有技术中存在的误差累积的问题。
本发明授权一种基于数据模仿和课程学习的离线强化学习方法在权利要求书中公布了:1.一种基于数据模仿和课程学习的离线强化学习方法,其特征在于,包括以下步骤:步骤1、输入待学习的离线轨迹数据集,判断所述数据集是否由单一智能体收集;若所述数据集是由单一智能体收集,则使用模仿学习进行预训练;若所述数据集不是由单一智能体收集,则执行步骤2;步骤2、使用当前的学习到的策略,对所述数据集中的每条轨迹的每个数据点,进行标记,标记为所述策略采样出所述数据点的概率;步骤3、对每条轨迹中的数据点排序;步骤4、以beta分位点的概率作为所述每条轨迹的标记;步骤5、选择N条标记最大的轨迹;步骤6、对所述步骤5选择的轨迹的数据进行模仿学习;步骤7、更新奖励水平过滤器;步骤8、过滤所述数据集中奖励水平低于所述过滤器的值的轨迹;步骤9、判断数据集是否已空;若是,则结束算法;若否,则重新执行步骤2;所述方法用于解决机器人控制问题,通过尽可能小的控制力使所述机器人运动的距离尽可能长,同时保证所述机器人不摔倒;其中,对于模型结构,使用概率神经网络对所述模型结构进行建模;具体地,训练一个概率神经网络,输出预测动作的平均值和标准差,利用所述平均值和所述标准差构建高斯分布,并通过极大似然估计训练模型;对数据集中的轨迹进行标记时,将一条轨迹看作一系列包含当前状态、当前动作、奖励值、下一状态信息的元组,其中,状态配置为所述机器人各部位的位置和速度,动作配置为施加在各部位上的力;对于每个元组,利用所述概率神经网络,将当前状态作为输入,得到预测动作的高斯分布,根据高斯分布的概率密度表达式,得到所述元组由当前策略采样出的概率;对于所述奖励水平过滤器,初始化为零与数据集中最低的轨迹总回报的较小者,随后在每次挑选轨迹进行模仿学习后,利用所选轨迹总回报的最小值,以滑动平均的方式更新过滤器;过滤数据集时,遍历数据集中剩余的所有轨迹,将总回报低于所述奖励水平过滤器当前值的轨迹从数据集中移除,不再使用。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学,其通讯地址为:200240 上海市闵行区东川路800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。