买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了基于深度强化学习的安全电力调度方法,属于电力调度领域,包括以下步骤:S1、采用马尔可夫决策过程根据对抗学习训练调度模型;S2、基于专家规则库交互式调优的方式训练主专家模型;S3、根据主专家模型优化调度模型输出最终的电力调度方案。基于RainbowDQN算法,提出了两种新颖的训练方式,分别是以基于对抗学习的方式训练对抗模型和调度模型来进行安全约束保障学习,以基于专家规则库交互式调优的方式训练得到主专家模型。通过在虚拟仿真电网环境上进行的大量实验,本发明验证了提出的基于深度强化学习的安全电力调度算法的有效性,能够抵御一定程度的扰动和攻击,提高电力系统的高效和鲁棒的电力调度能力。
主权项:1.基于深度强化学习的安全电力调度方法,其特征在于,包括以下步骤:S1、采用马尔可夫决策过程根据对抗学习训练调度模型;S2、基于专家规则库交互式调优的方式训练主专家模型;S3、根据主专家模型优化调度模型输出最终的电力调度方案;所述S1具体为:通过马尔可夫决策过程定义动作空间、状态空间和奖励函数,模拟调度模型和对抗模型在虚拟仿真电网环境中的行为,通过RainbowDQN算法更新调度模型和对抗模型的网络参数,对调度模型进行对抗学习训练;其中,马尔可夫决策过程定义的策略具体为:基于在虚拟仿真电网环境中的观测数据,通过调度模型或对抗模型生成电力调度方案;马尔可夫决策过程定义的观察空间包括节点的电压值、线路的电流值、发电机的输出功率和负荷的电力需求的电网信息,状态空间的表达式具体为: ;式中,表示所有节点的电压值,表示所有线路的电流值,表示所有发电机的输出功率,表示所有负荷的电力需求;马尔可夫决策过程定义的动作空间包括所有电力调度动作的排列组合,动作空间的表达式具体为: ;式中,表示发电机输出功率的调整值,表示开关操作状态,表示负荷调整;马尔可夫决策过程定义的奖励函数具体为基于电网运行的目标,其包括供电可靠性、经济效益和鲁棒性,奖励函数Rt的表达式具体为: ; ; ; ; ;式中,表示供电可靠性,用于衡量电压稳定性、频率偏差,表示第i个节点的电压,表示电网中各节点的额定电压,N表示电网中节点的总数,表示第j条线路的电流,表示第j条线路的最大允许电流,M表示电网中线路的总数,表示经济效益,用于衡量发电成本,为第k台发电机的成本系数,G表示发电机总数,表示第k台发电机输出功率的调整值,表示环境效益,用于衡量污染物排放,为第k台发电机的排放系数,表示鲁棒性,用于衡量对故障的抵抗能力,为第l个故障的影响评估值,F表示故障的总数,表示第一指标权重,表示第二指标权重,表示第三指标权重,表示第四指标权重;通过RainbowDQN算法更新调度模型和对抗模型的网络参数的表达式具体为: ;式中,为在具有原子的向量上的投影,表示离散支持上的原子数量,为目标分布,为KL散度,为时间差误差的概率,为调节对的影响程度的控制参数;所述S1中,马尔可夫决策过程的安全成本根据状态设置;安全成本的表达式具体为: ; ; ; ;式中,表示第一权重系数,表示第二权重系数,表示第三权重系数,表示电压安全成本,用于反映电压偏离额定值的程度,表示允许的电压偏差范围,表示电流安全成本,用于反映线路电流是否超过安全运行的限制,表示频率安全成本,用于衡量电网的频率偏差情况,表示当前电网频率,表示电网的额定频率,表示允许的频率偏差范围,表示最大值函数;对调度模型进行对抗学习训练的目标函数具体为下式: ;式中,表示当前状态,表示调度模型的动作,表示扰动,表示执行调度和扰动后,系统转移到的状态,表示调度模型的策略,表示对抗模型的策略,和均通过状态空间获取,通过动作空间获取; 表示对抗模型尝试寻找最不利的扰动,表示调度模型学习如何在对抗模型生成的最不利情景下调整调度策略,表示所有可能状态转移的平均情况;所述S2包括以下分步骤:S21、设置主专家模型和从专家模型,主专家模型包括电力调度的基本知识和初步优化能力,从专家模型根据主专家模型的副本生成;S22、初始化主专家模型和从专家模型;S23、通过专家规则库优化从专家模型的输出,进而训练主专家模型;所述S23包括以下分步骤:S231、通过调度模型输出初始电力调度方案,将初始电力调度方案输入从专家模型,得到调整后的电力调度方案;S232、通过专家规则库对调整后的电力调度方案进行故障业务分析,生成调整后的电力调度方案的反馈结果;S233、通过虚拟仿真电网环境将反馈结果发送至从专家模型,根据反馈结果更新从专家模型的模型参数;S234、按照预设周期将从专家模型更新的模型参数反馈至主专家模型,对主专家模型进行训练;所述S3包括以下分步骤:S31、将虚拟仿真电网环境中的观测值输入调度模型,生成电力调度方案,其中,观测值包括节点电压、线路电流、发电机输出功率和负荷需求;S32、将电力调度方案发送至主专家模型,生成优化后的电力调度方案;S33、通过专家规则库对优化后的电力调度方案进行故障业务分析,生成优化后的电力调度方案的反馈结果;S34、根据优化后的电力调度方案的反馈结果判断优化后的电力调度方案是否合格,若是,则将优化后的电力调度方案作为最终的电力调度方案;若否,则根据优化后的电力调度方案的反馈结果优化主专家模型,返回S32。
全文数据:
权利要求:
百度查询: 国网四川省电力公司宜宾供电公司 基于深度强化学习的安全电力调度方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。