买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:国能数智科技开发(北京)有限公司
摘要:本发明提出了一种基于强化学习的设备最优维修策略搜索方法及系统。该方法构建动态注意力集成马尔可夫模型捕捉复杂环境影响,设置多智能体强化学习框架分布式探索维修策略组合,并采用生成对抗网络训练对策略进行优化。生成器网络输出能全局最优化长期收益的综合维修策略,判别器网络将专家经验和长期收益作为约束条件指导生成器。该方法克服了现有人工规则和数据模型预测方法的缺陷,所生成的维修策略具有全局最优性、解释性和时效性,能够最大限度延长设备使用寿命、降低维修成本,对提高工业设备运营效率具有重要意义。
主权项:1.一种基于强化学习的设备最优维修策略搜索方法,用于根据设备的运行状态数据,通过强化学习训练获取能最大程度延长设备使用寿命且降低维修成本的综合最优维修策略,其特征在于,包括以下步骤:A构建动态注意力集成马尔可夫模型,利用设备运行历史数据提取影响设备状态转移的多元环境因素,采用多头注意力机制动态计算各环境因素对设备状态的影响权重,并将加权环境因素融合设备当前状态与历史状态序列,建立描述设备复杂环境下状态转移过程的动态注意力集成马尔可夫模型;B设置多智能体强化学习框架,将设备不同维修操作视为独立智能体,各智能体针对设备的特定子系统,具有不同的状态观测和奖惩函数设计,并通过协作博弈输出组合维修策略,采用多智能体策略梯度算法训练各智能体,实现策略的协调一致性,输出整体维修策略;C采用生成对抗模型进行策略优化训练,设置生成器网络输出维修策略,判别器网络评判该策略的优劣程度,通过对抗训练使生成器输出策略逐步逼近理想最优分布,并将维修专家数据及策略长期收益作为判别器输入,指导生成器输出合理可解释且具有全局最优性的最终维修策略。
全文数据:
权利要求:
百度查询: 国能数智科技开发(北京)有限公司 一种基于强化学习的设备最优维修策略搜索方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。