买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:三峡大学
摘要:计及深度强化学习的热电联产机组多工况自适应控制方法,考虑CHP机组在大范围工况随机出力运行时部分状态参数会发生非线性变化,建立表征不同出力工况下的CHP机组状态运行模型;基于建立的CHP机组状态运行模型,计及系统状态参数不确定变化建立多工况自适应控制模型;针对多工况自适应控制模型中控制模块的参数优化问题,设计MA‑DDPG算法多工况自适应控制参数优化策略;通过上述步骤,实现热电联产机组在多工况自适应控制下的负荷快速跟踪。本发明控制方法旨在保证系统控制可靠性的同时,实现热电联产机组在多工况自适应控制下的负荷快速跟踪,显著提升控制系统面对不确定复杂环境的自适应能力。
主权项:1.计及深度强化学习的热电联产机组多工况自适应控制方法,其特征在于包括以下步骤:步骤1:建立表征不同出力工况下的CHP机组状态运行模型;步骤2:基于步骤1建立的CHP机组状态运行模型,计及系统状态参数不确定变化建立多工况自适应控制模型;步骤3:针对多工况自适应控制模型中控制模块的参数优化问题,设计MA-DDPG算法多工况自适应控制参数优化策略;所述步骤2中,建立的多工况自适应控制模型过程,包括多工况模型切换和多变量控制系统PID自适应控制设计两个过程;其中,多变量控制系统共有三条控制回路,CHP机组将机前压力偏差△pT送入第1条高调门开度控制回路,发电负荷偏差△Pe送入第2条蝶阀开度控制回路,第3条燃料量控制回路输入由△Pe与抽汽流量扰动△qm等效发电负荷偏差构成;因此,CHP机组控制系统为: 式8中:Y为三条控制回路输出矩阵,其中△yi、yi,0、△xi、kp,i、kI,i、kd,i分别为第i条控制回路控制器的输出增量、输出初始值、输入偏差以及3个控制参数,这些控制参数决定了机组调节性能;多工况模型切换由积分型函数切换机制完成,其具体包括以下步骤:S3.1:根据式7构造包含n个工况的模型库来覆盖被控对象整个区间的运行特性:Ω={Fi|i=1,2,...,n}9;式9中:Fi为第i个工况下所对应的系统模型;Ω为模型元素Fi的集合,S3.2:根据式8建立工况模型控制系统:C={Yi|i=1,2,…n}10;式10中:Yi为第i个工况子模型所对应的子控制系统,C为其集合;S3.3:利用积分型函数切换指标,评估各工况子模型与当前被控对象的匹配程度,切换至最优工况模型Fo: 式11中:J为切换机制;△xi,jt为第i个工况模型与实际被控对象的第j条控制回路输入xi.jt与xref,jt的误差;α和β分别为当前瞬态误差和记忆长度内误差的权重;γ为遗忘因子,保证Jit的收敛性,α0,β0,γ0;S3.4:设采样时刻t,系统采样偶对Fi,Yi,下一采样时刻Jk=min{Jit},切换如下: 式12中:Fi为第i个工况下所对应的系统模型;Yi为第i个工况子模型所对应的子控制系统;Ji为第i个工况子模型所对应的切换机制;δ为滞后时间;由积分型函数切换机制能够获取最匹配工况模型,其输出与机组负荷指令xreft相减,构成闭环最优工况控制模型;所述步骤3中,对于MA-DDPG算法,其在任意优化时刻,3个Agent共同探索工况子模型环境,借助经验回放池R在训练周期T内用N个随机样本快速更新各自网络参数和策略制定,及时用最小化损失函数LQ和确定性策略梯度DPG训练更新Q、μ网络参数;因此,每个Agent梯度更新公式: 式13、式14中:N为样本总数;i为回放池的随机样本编号;为控制器被控变量的响应性能指标惩罚;s为当前状态;a为决策动作;ω为Q值迭代折扣因子;μs|θμ为用于决策动作的Actor网络;Qs,a|θQ为用于动作评估的Critic网络;为当前网络μ、Q所拷贝的目标网络;为在状态下执行动作的Q值;θQ、θμ、为每个Agent的Critic、Actor的当前网络Q、μ的网络参数和目标网络的网络参数;接着,更新该Agent的Critic网络和Actor网络的参数θQ、和θμ、 式中:和为第k+1次迭代的Q、μ和网络参数;φ和分别为Critic、Actor当前网络学习权重值;σ为目标网络更新权重;j为智能体的编号;Yj为第j个智能体的目标值函数;c为目标网络相对当前网络所延迟的步数;通过上述步骤,实现热电联产机组在多工况自适应控制下的负荷快速跟踪。
全文数据:
权利要求:
百度查询: 三峡大学 计及深度强化学习的热电联产机组多工况自适应控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。