买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京大学
摘要:本发明公开了一种基于天空红外图像和气象数据的云底高度反演方法,该方法首先获取标准云底高度数据,筛除异常值;再获取与处理后标准云底高度数据集时间同步的天空红外遥感图像,并提取其灰度值的统计学特征,特征提取过程中,除灰度平均值之外还充分扩展提取了灰度值的多种统计学特征,并根据互信息值对其进行筛选,与四种气象数据特征结合后输入随机森林模型反演云底高度。由于对红外图像特征进行了扩展提取,以及随机森林算法在高维离散数据集处理上的优越性与鲁棒性,本方法能够精准地反演云底高度。
主权项:1.一种基于天空红外图像和气象数据的云底高度反演方法,其特征在于,该方法包括如下步骤:S1.首先获取标准云底高度数据,筛除异常值;再获取与处理后标准云底高度数据集时间同步的天空红外遥感图像,并提取其灰度值的统计学特征,对于提取的灰度值的各项统计学特征依照其与标准云底高度数据的互信息大小进行相关性排序,并将部分相关性低的特征进行剔除,剩余特征作为天空红外图像输入特征;从气象数据中选择与处理后标准云底高度数据集时间同步的瞬时辐射量、空气温度、空气湿度与气压四项指标作为气象数据输入特征;S2.将天空红外图像特征、气象数据特征合并为输入特征,再与标准云底高度数据拼接为总数据集,并将得到的总数据集分为训练集和测试集;S3.构建随机森林模型,并采用步骤S2获得的训练集对模型进行训练;S4.采用随机参数搜索优化,从设定好的随机森林模型超参数范围中随机采样一组超参数独立进行五次模型训练,取五次输出结果的平均绝对误差MAE的均值来评估在该参数组合下的模型性能;再在超参数空间中进行多次采样,通过比较来确定最优超参数组合;S5.在确定最优的超参数组合后,基于该超参数组合与测试集的输入数据进行云底高度反演,得到模型的最终输出结果;步骤S1具体包括如下子步骤:S1.1.进行标准云底高度数据的筛选,对未获取到云底高度数据的时间点进行排除,并将异常的数据段加以剔除;S1.2.获取天空红外遥感图像数据,并筛选出与步骤S1.1处理过后的标准云底高度数据集时间同步的图像,对于每张天空红外遥感图像,设天空红外遥感图像中心区域的大小为L×L像素,单个像素点的灰度值用gi表示,对于该中心区域内一系列灰度值数值,提取的特征种类如下:①平均值:将该中心区域内所有像素的灰度值数据相加并除以像素点总数,得到该中心区域内像素点灰度值的算术平均值average;②四分位数与四分位差:将该中心区域内所有灰度值数据展开为一维数组,进行升序排序,取排序后序列中位于第25%、50%以及75%处数据,分别记作Q1、Q2和Q3,即第一四分位数、第二四分位数和第三四分位数;各个四分位数的序号计算方法如下:Q1index=L2+1×0.25Q2index=L2+1×0.5Q3index=L2+1×0.75Q1index为第一四分位数对应的数组序号,Q2index为第二四分位数对应的数组序号,Q3index为第三四分位数对应的数组序号;若得到的四分位数序号不是整数,那么根据距离取相邻两个整数序号对应数据的加权平均;第一个四分位数Q1不作为输入特征;并将Q3减去Q1的值记为四分位差IQR,作为图像输入特征之一;③标准差与变异系数:标准差std_dev的计算方法为: 该值能够反映数据之间的离散程度;将标准差除以灰度平均值得到变异系数,该值同样能够反映数据的离散程度;④偏度与峰度:偏度skew的计算方法为: 偏度值是衡量数据分布偏斜方向和偏斜程度的量,用于描述数据分布的不对称性,偏度小于0时,数据中位于均值左侧的量小于右侧的;偏度大于0,则数据中位于均值右侧的量小于左侧的;峰度kurt的计算方法为: 峰度值用于度量数据分布的集中程度,峰度越大,数据分布越集中,图像上更高、尖;峰度越小,数据分布越平均,图像上更矮、宽;⑤最大25%数的均值:将天空红外遥感图像中心区域内灰度值数据展开为一维数组,进行降序排序,对序号在前25%的数据求和并取均值,即可得到降序序列前25%的数的平均值,简称为最大25%数的均值;最后将每张天空红外遥感图像的中心区域范围设置为小、中等、大三种规格,在每种规格的区域内分别提取平均值、第二四分位数、第三四分位数、四分位差、标准差、变异系数、偏度、峰度、最大25%数的均值这9个特征,即对于一张天空红外图像总共提取了27个特征;S1.3.天空红外遥感图像特征的筛选,对于步骤S1.2提取的27个特征,依照各个特征与标准云底高度数据的互信息大小对其进行排序,并按照比例将互信息值较小、即相关性低的特征进行剔除,互信息值计算公式为: 其中X,Y为随机变量,px为随机变量X取值为x的概率,py为随机变量Y取值为y的概率,px,y表示随机变量X取值为x且随机变量Y取值为y的概率;S1.4.气象数据的筛选,在所有采集的气象数据中,选择与处理后的标准云底高度数据集时间同步的瞬时辐射量、空气温度、空气湿度与气压四项指标作为气象数据输入特征;步骤S3具体包括如下子步骤:S3.1.构建随机森林模型,对于单棵决策树,首先随机选取一个输入特征,依照其数值分布设置若干个切分点,对于单个切分点,它将数据集划分为两个子区域,分别是由特征值小于该切分点的样本组成的子区域c1以及由特征值大于该切分点的样本组成的子区域c2;S3.2.计算每个切分点子区域的输出值,子区域的输出值为其中所有样本对应的标准云底高度值的平均值,若共设置了x个切分点,每个切分点上存在c1区域输出值yc1和c2区域输出值yc2,因此共有2x个子区域特征值;S3.3.计算损失函数并比较,对于每个切分点,计算损失函数值,在回归问题中常用损失函数Loss为: yi,yj分别表示c1区域样本、c2区域样本对应的标准云底高度值;将该输入特征的所有切分点的损失函数计算完毕后选择其中对应损失函数最小的切分点作为该特征的最佳划分点;S3.4.按照步骤S3.1-S3.3在每一个输入特征上设置切分点、划分区域、计算子区域输出值与损失函数,使用所有输入特征的所有切分点中损失函数最小的切分点对数据集做第一次划分;S3.5.在划分出的两个子区域上分别重复步骤S3.1-S3.4,直到做出第二次划分;完成第二次划分后再在每个子区域上重复流程,直至第三次划分,以此类推,直至最大子树深度max_depth或其他超参数达到设定限度;S3.6.在所有决策树处理完成后训练过程结束。
全文数据:
权利要求:
百度查询: 南京大学 一种基于天空红外图像和气象数据的云底高度反演方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。