首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法 

申请/专利权人:北京工业大学

申请日:2021-08-27

公开(公告)日:2024-07-05

公开(公告)号:CN113780383B

主分类号:G06F18/214

分类号:G06F18/214;G06F17/18;G06Q10/04

优先权:

专利状态码:有效-授权

法律状态:2024.07.05#授权;2021.12.28#实质审查的生效;2021.12.10#公开

摘要:本发明提供基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法。城市固废焚烧MSWI过程排放的二噁英DXN是浓度的实时检测是实现MSWI过程运行优化控制的关键因素之一。然而,受限于DXN浓度获取的时间和经济成本,仅可获得少量的建模数据。因此,传统的有监督建模方法难以满足实际需求。为了充分利用工业现场分布式控制系统实时获取的过程数据,首先,随机采样有标记数据生成多个训练子集。接着,利用训练子集构建多个RF模型,并对未标记的过程数据进行伪标记。最后,利用由伪标记数据和原始有标记数据组成的混合样本训练用于预测二噁英排放浓度的深度森林回归模型。在基准数据集和实际DXN数据上的实验结果验证了所提方法的有效性。

主权项:1.基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法,其特征在于:MSWI的过程包括DXN的产生、吸收和排放三个阶段;在固废焚烧和余热锅炉阶段,为保证有机物的有效分解,要求焚烧炉内的烟气温度达到850℃并至少保持2秒;在烟气处理阶段,石灰和活性炭被喷射进入反应器中以去除酸性气体、吸附DXN和一些重金属物,使得烟气G1中的DXN被分为两部分:一部分被吸附进入飞灰储仓,另一部分经袋式过滤器后保留在烟气G2中,通过引风机排入烟囱后作为烟气G3排入大气;因此,DXN浓度与固废焚烧、烟气处理和烟气排放阶段的变量有关;xSWI表示固废焚烧阶段的变量,包含燃烧室温度xcct、炉排温度xgt、炉排速度xgs、风量xav、压力xp;xFGC代表烟气处理阶段的变量,含有袋式除尘器温度xbft、引风机烟气出口温度xidft、活性炭用量xca、石灰用量xla、尿素用量xua、油量xoa变量;xFGE为烟气排放中的变量,包括烟气中的氧气灰尘xdust、氮氧化物二氧化硫盐酸xHCL、一氧化碳xCO和二氧化碳浓度;可以表示如下,xSWI=[xcct,xgt,xgs,xav,xp]1xFGC=[xbft,xidft,xca,xla,xua,xoa]2 虽然离线化验分析可精确测量DXN的浓度,但其时间和经济成本高,因此只能获得用于建模的小样本标记数据;同时,大量的MSWI过程变量和DCS系统中检测的气体浓度可以获得,将这些变量记作xMSWI,即xMSWI=[xSWI,xFGC,xFGE],但传统有监督建模策略中未能够使用未标记数据;因此,使用能够获得的未标记unlabeled样本xunlabeled∈xMSWI辅助建模以提高预测性能;DXN浓度预测模型的最终性能可通过最小化均方根误差RMSE进行优化,其描述如下, 其中,和分别是DXN数据集中第i个样本的DXN浓度预测值和真值,NDXN表示DXN数据集的样本个数; 可通过使用同时包含伪标记和有标记数据训练得到的半监督模型fSS·得到, 其中,xlabeled,ylabeled为有标记数据,xunlabeled为无标记数据,为无标记数据xunlabeled的伪标签,即xunlabeled的预测值,Mun为选择的无标记样本数量,为衡量伪标记样本有效性的标准,0δx≤1;伪标记样本可通过标记预测值模型flabel·计算得到, 其中,xlabeled,ylabeled为有标记数据,θmodel表示为建模参数集,模型fSS·和flabel·的具体训练过程将在3.1节详细阐述;RMSE可通过选择的未标记样本数量Mun和衡量伪标记样本有效性的标准δx进行优化;因此,综合使用有标记和未标记数据的半监督策略可有效解决目前DXN排放浓度预测中未能利用未标记数据的问题;SSEn-RFDFR模型中包含用于获取伪标记样本的半监督模块和基于DFR的DXN预测模块;3.1获取伪标记样本的半监督模块基于MSWI过程的有标记数据集,构建多个RF模型用于伪标记无标记样本,训练集在选择最优的伪标记样本后进行更新;下文将分别介绍本模块的四个部分;1生成多个训练子集首先,记Dlabeled为有标记数据集,N为有标记数据集的样本数量,xn为过程数据,yn为真值数据,在本方法使用的DXN数据集中,xn含有127个过程变量,yn为DXN浓度值;其描述如下, 接着,通过bootstrap对有标记数据集Dlabeled进行随机采样以得到K个样本个数为N的训练子集这些子集将用于训练初始的多个RF模型;2训练初始的多个RF模型多个RF模型是SSEn-RFDFR策略的重要组成部分;通过这些模型,可得到未标记样本对应的伪标签;首先,通过bootstrap和随机子空间即RSM方法对子集的样本和特征进行随机采样,获得J个子训练集其中k=1,2,…,K,j=1,2,…J;接着,在训练子集所在的空间中,将每个区域递归地划分为两个子区域R1和R2,并使用每个子区域上的输出值构建决策树;基于以下准则,即公式8,遍历寻找最优变量编号和切分点取值Mj,s, 其中,和分别表示两个区域R1和R2的DXN测量值;和分别为两个区域R1和R2中DXN测量值的平均值;θForest表示叶节点包含的训练样本数量阈值,在本方法中选择数据集样本个数N的110作为阈值;基于上述准则,首先通过遍历所有输入特征得到最优变量编号和切分点取值即Mj和s,将输入特征空间划分为左、右两个区域,该过程可由公式9描述,其中xj为该最优变量的取值,R1Mj,s={x|xj≤s},R2Mj,s={x|xjs}9接着,根据公式8对每个区域重复遍历过程,直到叶节点包含的样本个数少于设定的阈值θForest为止,输入空间被划分为M个区域,定义第jth个训练子集的决策树模型为Γj·, 其中,是区域Rm内训练样本的真值均值,由公式11进行计算;I·为指示函数,当存在时I·=1,否则I·=0;表示区域Rm内包含的训练样本个数;表示区域Rm内第jth个训练子集的真值;重复公式10和11的步骤J次即可得到第k个RF模型如下所示; 最后,根据公式8-12的步骤,可得到K个RF模型的集合3伪标记未标记样本构建的K个RF模型FRF·用于对未标记样本xunlabeled进行伪标记得到伪标签;未标记样本xunlabeled中包含的样本个数为Mun,每个样本含有127个过程变量;其描述如下, 用表示其中的一个未标记样本,其伪标签由第k个RF模型得到;根据上述内容2中的描述,使用伪标记样本即和原始有标记样本的混合数据集训练新的RF模型通过计算未标记样本xunlabeled在有标记数据集Dlabeled中邻域集ΩU,t的RMSE确定伪标记样本的效果,邻域集ΩU,t通过K最近邻即KNN方法得到;RF模型和用于获取邻域集ΩU,t的预测值和表示迭代次数,描述如下, 用以评估将伪标记样本即添加到原始有标记数据集xlabeled后对近邻域集的预测效果, 其中,是近邻域集ΩU,t中样本xΩ的真实DXN值,为对近邻域集ΩU,t中样本xΩ预测得到的伪标签,表示利用RF模型对近邻域集ΩU,t中样本xΩ预测得到的伪标签;近邻域集计算得到的值越高,表示加入该伪标记样本即对提高模型预测精度的正效应越大;根据可选择出置信度高的未标记样本和其预测值;4更新建模样本由于存在K个训练子集故可根据上述内容2和3选择每个训练子集的最优即置信度高伪标记样本将这些样本集加入到有标记训练集Dlabeled中,可更新得到训练集Dnew-train,表示如下: 3.2基于DFR的DXN预测模块更新后的训练集Dnew-train用于训练DFR模型;DFR模型包括输入层、中间层和输出层森林模块;输入层森林模块的输入是训练集Dnew-train;在训练多个子森林模型后,使用KNN法选择子森林的预测值,将其组合后得到层回归向量,增强层回归向量由层回归向量与训练集Dnew-train组合后得到;中间层森林模块包含L-2层,将从输入层得到的增强层回归向量作为输入,输出以与输入层相同的方式得到;重复这个过程,直到得到第L-1层森林模型的输出;输出层森林模块将L-1层森林模型的输出作为第L层森林模型的输入训练多个子森林模型,通过对子森林模型的预测值进行算术平均得到最终的预测结果;1输入层森林模块首先,使用bootstrap和RSM方法对训练集Dnew-train进行随机采样,构建RF和CRF的子森林模型;与RF算法不同的是,CRF算法中使用随机的方法遍历变量寻找最优的变量编号和切分点取值;输入层森林模块中由I个子森林模型组成,第ith个子森林模型的J个决策树生成的预测值向量为由每个决策树产生的预测值组成;通过下式计算第一层森林模块中第ith个子森林模型的预测平均值 相应地,通过KNN方法选择h个接近预测均值的预测值形成第ith层子森林的回归向量重复公式18的步骤I次后,即可得到输入层森林模型中I个子森林模型的层回归向量最后,将输入的训练集特征集xnew-train,其中xnew-train为Dnew-train中只含127个DXN过程变量的样本,和层回归向量通过特征组合函数fFeaCom·结合,得到输入层森林模块的增强型回归向量即中间层森林模块的输入, 其中,h表示选择接近预测平均值的预测值的数量;2中间层森林模块中间层森林模块中森林模型的训练数据集Dλ={xλ,n,yn,n=1,2,…,N+K},λ=2,3,…L-1为增强层回归向量即第λ-1层森林模型的输出,xλ,n为训练数据集Dλ中的过程数据,yn为训练数据集Dλ中的真值, 其中,yD表示训练集Dnew-train中的DXN真实浓度值;N+K表示训练集Dnew-train中的样本数;为由第λ-1层森林模型的层回归向量和原始特征向量xnew-train组成的增强层回归向量;Dλ表示第λth个森林模型的训练集;预测值由第λth层森林模型中的第ith个子森林模型的每个决策树模型生成,用于获得由J个预测值组成的预测值向量 通过KNN方法选择h个接近预测均值的预测值,形成第ith个子森林的回归向量以及第λth层森林模型的层回归向量重复公式21I次后,可得到第λth层森林模型的层回归向量最后,将输入的训练集特征集xnew-train和层回归向量组合,形成第λth层森林模块的增强层回归向量即第λ+1层森林模型的输入; 3输出层森林模块第Lth层森林模型的训练数据集DL={xL,n,yn,n=1,2,…,N}是第L-1层森林模型输出的增强层回归向量即将xnew-train和层回归向量的组合, 其中,yD表示训练集Dnew-train中的DXN真实值;N+K表示训练集Dnew-train中的样本个数;使用bootstrap和RSM对训练集DL的样本和特征进行随机采样;根据公式10可构建第ith个子森林模型的决策树模型,进而得到第Lth层森林模型记第Lth层中第ith个子森林模型的每个决策树模型生成的预测值为预测值向量由J个预测值组成;最后,第Lth层中的第Ith个子森林模型的预测均值由下式计算, 重复公式24I次后可得到I个子森林模型的预测输出I个子森林模型预测值的算术平均值为: 其中,表示DFR模型的最终预测得到的DXN浓度值。

全文数据:

权利要求:

百度查询: 北京工业大学 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。