买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南开大学
摘要:本发明提供一种基于最大熵强化学习算法的模型训练方法及规划制导方法,包括:构建动作评论模型,动作评论模型包括行动网络模块和评论网络模块;动作评论模型根据状态向量得到决策过程向量组,状态向量为从预设环境中得到的;根据决策过程向量组,在最大化熵原则下更新行动网络模块和所述评论网络模块,输出最优策略结果。本发明在最大化熵原则下,避免对整体空间进行计算,大大减少了学习的复杂性。
主权项:1.一种基于最大熵强化学习算法的模型训练方法,其特征在于,包括:S100:构建动作评论模型,所述动作评论模型包括行动网络模块和评论网络模块;S200:所述动作评论模型根据状态向量得到决策过程向量组,所述状态向量为从预设环境中得到的;S300:根据所述决策过程向量组,在最大化熵原则下更新所述行动网络模块和所述评论网络模块,输出最优策略结果。
全文数据:
权利要求:
百度查询: 南开大学 基于最大熵强化学习算法的模型训练方法及规划制导方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。