Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜中国人民解放军国防科技大学冯旸赫获国家专利权

恭喜中国人民解放军国防科技大学冯旸赫获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜中国人民解放军国防科技大学申请的专利基于双层深度强化学习模型的最优策略获取方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114723065B

龙图腾网通过国家知识产权局官网在2025-04-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210282426.5,技术领域涉及:G06N20/00;该发明授权基于双层深度强化学习模型的最优策略获取方法及装置是由冯旸赫;陈晓轩;黄金才;刘忠;程光权;梁星星;陈丽;许乃夫设计研发完成,并于2022-03-22向国家知识产权局提交的专利申请。

基于双层深度强化学习模型的最优策略获取方法及装置在说明书摘要公布了:本申请涉及一种基于双层深度强化学习模型的最优策略获取方法及装置。所述方法包括:通过在策略模型中设置双层深度强化学习模型,其中包括用于根据先验知识启发将目标认为分为多个子目标,在根据各子目标将目标任务的多个具体状态映射为多个抽象状态,并通过各抽象状态计算在线奖励函数的奖励函数在线塑造模型,以及用于根据各具体状态进行行动决策的决策模型,在决策模型进行训练时通过奖励函数在线塑造模型提供的在线奖励函数以对其奖励稠密化,加快模型收敛速度,提高模型的训练效率。

本发明授权基于双层深度强化学习模型的最优策略获取方法及装置在权利要求书中公布了:1.基于双层深度强化学习模型的最优策略获取方法,其特征在于,所述方法包括:获取训练样本集,所述训练样本集中包含有与一个目标任务相关的多个具体状态,智能体在具体状态下执行的动作,执行动作后环境迁移到的新的具体状态以及与各所述状态对应的环境反馈奖励,所述目标任务包括以工程机械为应用环境的目标任务以及以迷宫导航为应用环境的目标任务;将所述训练样本集输入策略模型进行训练直至所述策略模型具备输出完成所述目标任务最优策略的能力,得到训练后的最优策略模型;其中,所述最优策略模型包括均基于马尔科夫决策过程搭建的奖励函数在线塑造模型以及决策模型,在所述奖励函数在线塑造模型中根据先验知识启发将所述目标任务分为多个子目标,并根据各所述子目标将多个具体状态映射为多个抽象状态,再根据各抽象状态塑造得到在线奖励函数以供决策模型使用,所述决策模型中包括决策网络,根据所述环境反馈奖励以及在线奖励函数对所述决策网络进行训练以使其输出最优策略,其中,在所述奖励函数在线塑造模型中再根据各抽象状态塑造得到在线奖励函数包括:根据从一个抽象状态转移到另一个抽象状态所经历的多个具体状态所获得的环境反馈奖励之和计算得到抽象状态迁移奖励,根据所述抽象状态迁移奖励进行计算得到对应抽象状态的价值函数,并根据所述价值函数进行计算得到所述在线奖励函数,进一步的,在对所述策略模型进行训练时包括:将所述训练样本集中一组具体状态以及对应的环境反馈奖励分别输入所述奖励函数在线塑造模型以及决策模型中,在所述奖励函数在线塑造模型中,将所述环境反馈奖励累加到抽象状态迁移奖励中,再根据所述抽象函数将具体状态映射成对应的抽象状态,并判断该抽象状态是否与前一步的抽象状态相等,若不相等,则说明当前抽象状态发生了迁移,利用所述抽象状态迁移奖励更新当前抽象状态的价值函数,若相等,则说明当前抽象状态没有发生迁移,则不对价值函数进行更新,利用价值函数进行计算得到在线奖励函数,并将所述在线奖励函数提供给所述决策模型,在所述决策模型中,根据所述具体状态、在线奖励函数以及环境反馈奖励对下一步动作进行选择并执行,并反馈给环境,环境根据所述决策模型输出的动作给出新的具体状态以及对应的环境反馈奖励,以使所述奖励函数在线塑造模型以及决策模型进行新一轮的训练;获取所述目标任务中的任意一具体状态,并将该具体状态输入所述训练后的最优策略模型,得到以该具体状态为起始点完成所述目标任务的最优策略。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。