买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:湖南工商大学
摘要:本发明公开了基于RF‑C‑SOM聚类算法的水质监测布点优化方法,包括:对采集的水质数据进行预处理,获取预处理后的水质数据;将预处理后的水质数据为数据,水质类别为标签,进行随机森林模型的训练,确定水质指标的特征重要度;根据特征重要度结合模型训练准确度进行特征重要性的选择,对预处理后的水质数据进行降维,获取降维后的数据;对降维后的数据进行模糊聚类,获得水质断面分类结果;基于水质断面分类结果,确定自组织映射算法的初始权重值;基于设置好的初始权重值对神经元进行初始化并训练自组织映射网络模型;通过自组织映射网络模型获得点位聚类结果;将筛选前与筛选后的点位结果进行水质质量指数评定。
主权项:1.基于RF-C-SOM聚类算法的水质监测布点优化方法,其特征在于,包括:步骤一、对采集的初始水质数据进行预处理,获取预处理后的水质数据;具体包括:对采集的初始水质数据进行预处理,获取预处理后的水质数据的方法为:对于采集的水质数据的缺失值,连续的数值缺失采取直接删除的方法,对于个别指标数据缺失的数据修复,采取归因法,使用指标平均数进行填补,为消除数据量纲以及数量级不同所带来的影响,对数据进行Z-score标准化,计算如下 其中,aij表示第i天的第j个指标的取值,表示第j个指标的样本均值,δj表示第j个指标的标准差;步骤二、将所述预处理后的水质数据为数据,水质类别为标签,进行随机森林模型的训练,确定水质指标的特征重要度;步骤三、根据所述特征重要度结合模型训练准确度进行特征重要性的选择,对所述预处理后的水质数据进行降维,获取降维后的数据;具体包括:将所述预处理后的水质数据按照7:3的比例分成训练集和测试集,以水质类别为标签,放入随机森林模型中进行训练;对于所有训练样本采取bootstrap有样放回的方式进行取样获得样本集,采用所述样本集生成一棵决策树,根据Gini系数来计算不纯度,通过选取不纯度指标最优特征来确定决策树的最佳节点和最佳分枝方法并计算模型准确率;利用袋外数据产生的oob误差计算特征变量重要度,得出特征重要度排名靠前的特征变量;根据Gini系数来计算不纯度的方法为: 其中,c代表类别数量,t代表给定的特征节点,pi|t代表标签分类i在节点t上所占的比例;利用袋外数据产生的oob误差计算特征变量重要度的方法为: 其中,N为随机森林中决策树数量,erroob1为根据oob数据计算袋外数据误差,erroob2为随机对oob所有样本的某一特征加入噪声干扰,重新计算袋外数据误差;步骤四、对所述降维后的数据进行模糊聚类,获得水质断面分类结果;具体包括:S1、对聚类算法进行初始化,确定初始参数以及变量;S2、使用[0,1]之间的随机数初始化隶属度矩阵U,矩阵需满足约束条件其中,Uij代表样本点xi与聚类中心Cj的隶属度;S3、根据对目标函数的迭代优化获得对水质数据集的模糊分类,使用拉格朗日乘数法求目标函数在约束条件下的最小值,计算新的隶属度矩阵U和聚类中心Cj,计算公式为: 其中,公式3为FCM的目标函数J,dxi,Cj是水质样本点xi到聚类中心Cj的欧氏距离;公式4为更新后的隶属度矩阵U;公式5为更新后的聚类中心Cj;欧式距离公式为: 其中,dX,C是样本点X到聚类中心C的欧氏距离,xii=1,2,...,n是实数称为x的第i个坐标,yii=1,2,...,n是实数称为y的第i个坐标;S4、重复S3,直到目标函数J满足迭代停止条件||Jl-Jl-1||≤ε,此时数据的迭代中心将不再发生显著变化,输出聚类中心和数据隶属度矩阵的结果;步骤五、基于所述水质断面分类结果,确定自组织映射算法的初始权重值;步骤六、基于设置好的初始权重值对神经元进行初始化并训练自组织映射网络模型;步骤七、通过自组织映射网络模型获得点位聚类结果;步骤八、将所述初始水质数据与所述点位聚类结果进行水质质量指数评定。
全文数据:
权利要求:
百度查询: 湖南工商大学 基于RF-C-SOM聚类算法的水质监测布点优化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。