恭喜中国科学院电工研究所肖浩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国科学院电工研究所申请的专利一种基于改进深度强化学习的综合能源系统能量管理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115409645B 。
龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210965022.6,技术领域涉及:G06Q50/06;该发明授权一种基于改进深度强化学习的综合能源系统能量管理方法是由肖浩;浦骁威;裴玮;马腾飞;马丽;彭大健设计研发完成,并于2022-08-12向国家知识产权局提交的专利申请。
本一种基于改进深度强化学习的综合能源系统能量管理方法在说明书摘要公布了:本发明提供一种基于改进深度强化学习的综合能源系统能量管理方法,包括:1基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建各综合能源系统等值封装模型;2构建各综合能源系统能量管理策略学习训练所需的强化学习环境;3采用k优先采样策略代替ε贪心策略改进深度强化学习算法,并基于改进深度强化学习算法对各综合能源系统能量管理策略在线学习。本发明通过长短时记忆神经网络的等值建模简化了多综合能源系统互动时的复杂迭代过程,降低了能量管理方案求解难度,同时改进的深度强化学习算法能够在大规模动作空间的探索中减少对低奖励值动作的访问频次,具有更好的收敛性与稳定性。
本发明授权一种基于改进深度强化学习的综合能源系统能量管理方法在权利要求书中公布了:1.一种基于改进深度强化学习的综合能源系统能量管理方法,其特征在于,包括以下步骤: 步骤(1):基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建综合能源系统等值封装模型;所述综合能源系统等值封装模型的输出为电能交易额和热能交易额; 步骤(2):构建各综合能源系统能量管理策略学习训练所需的强化学习环境; 步骤(3):采用k优先采样策略,并基于改进深度强化学习算法对各综合能源系统能量管理策略在线学习,包括: 步骤(3-1)初始化经验池以及Q网络参数: 随机初始化智能体的动作,并记录智能体的状态转移过程,将智能体的当前状态,当前采取的动作,下一状态,奖励函数存入经验池,直至填满经验池;同时,初始化目标Q网络的权重; 步骤(3-2)获取当前环境状态st: 取当前时段内综合能源系统中的风电机组出力、光伏机组出力,分布式储能状态,电负荷大小,热负荷大小,实时电交易价格以及实时热交易价格,作为智能体可观测的环境状态st; 步骤(3-3)用k优先采样策略改进深度强化学习算法,选择当前动作at: k-优先采样策略先根据所有动作的Q值挑选出k个最高Q值的候选动作,接着根据softmax函数计算出k个候选动作的归一化得分,最后按照符合归一化得分的概率分布完成动作的选取; k-优先采样策略的数学表达式为: ; 式中,s为当前智能体所处的状态;a为智能体可选的动作;为策略函数,用于描述状态s下选择动作a的概率;Qs,a为状态s与动作a构成的动作价值函数;,为所有动作价值Qs,a中最高的k个动作所构成的集合,其表达式为: ; 式中,代表全体动作集合中动作价值函数最大的k个动作; 步骤(3-4)更新经验池: 执行k-优先策略获得的当前动作at,获得下一时刻的状态st+1以及奖励值rt,将状态转移过程以st,at,rt,st+1的形式存储至经验池,若经验池已经填满则删除最早的经验记录,若经验池没有填满则进行下一步; 步骤(3-5)更新Q网络参数: 从经验池中随机抽取N个数据si,ai,ri,si+1,计算目标网络预测值: ; 式中,代表第i个样本目标网络预测值,为衰减系数,为目标网络计算出的状态下的动作价值函数,代表目标网络参数; 用梯度下降法更新Q网络参数,最小化损失函数为: ; 式中,为评估网络计算出的状态下的动作价值函数,代表评估网络参数; 最后,重复步骤(3-2)~步骤(3-5)直至达到最大训练次数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院电工研究所,其通讯地址为:100190 北京市海淀区中关村北二条6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。