买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:成都信息工程大学
摘要:本发明涉及一种基于XGBoost模型的龙卷风识别算法,采用双偏振天气雷达数据,除反射率、径向速度和速度谱宽外,还加入双偏振天气雷达数据的差分反射率和相关系数构成数据集,实现对龙卷风的精确识别;通过学习训练实现龙卷风的实时检测,通过制作数据集时采用步长为1滑动窗来增加数据量;同时在制作数据集时进行删除异常值和空值的操作避免影响模型的训练效果;训练时使用网格搜索算法提高模型训练的性能。本发明采用了江苏和广东的雷达数据进行试验,结果表明本发明方法能有效提高龙卷风识别效率和准确率,根据龙卷风的产生和发展过程提供分类概率,帮助预报员对龙卷风进行预报预警。
主权项:1.一种基于XGBoost模型的龙卷风识别方法,其特征在于,所述识别方法实现优化的分布式梯度提升,在大型数据集上进行快速训练,采用五种雷达基数据,将雷达基数据分成多个块并计算与龙卷风有关的特征值得到34个气象参量作为数据输入,使用步长为1的滑动窗增加龙卷风的训练样本量,采用XGBoost模型,同时使用网格搜索算法寻找最优的超参数组合,提高处理速度,缩短模型训练的时间,所述方法包括:步骤1:准备数据集并进行预处理,使用步长为1的滑动窗将五个类别的雷达回波数据均切分成4×4个距离库的数据块,具体包括径向速度、反射率、速度谱宽、差分反射率和相关系数,得到5×4×4的数据块,具体的:首先,将雷达数据切分为4×4个距离库为单位的小块,实际距离为1km×1km,使用步长为1的滑动窗制作样本以确保样本能完全包含龙卷风发生区域;其次,去除无效数据和雷达中心附近以及较远区域的数据,制作的标签样本类别包括类别0和类别1,类别0表示负样本,即非龙卷风样本,类别1表示正样本,即包含龙卷样本;步骤2:根据步骤1得到的数据块设计气象参数特征,共提取34个气象参数特征作为输入数据集,34个气象参数特征至少包括4×4网格的反射率、径向速度、速度谱宽、差分反射率和相关系数的最大值、最小值以及平均值,根据径向速度进行二次特征设计得到的4×4和2×2网格内的角动量、旋转速度和切变的最大值、最小值以及平均值,4×4网格内最大正速度和最大负速度的差值;将这34个气象参数特征按顺序存储为矢量样本,并按顺序保存参数的时间信息、位置信息、和雷达信息;若样本中存在空值,则该样本将被删除;步骤3:将步骤2得到的龙卷风数据集按比例划分为训练集和测试集,将训练集输入构建的XGBoost模型中进行训练,采用网格搜索算法优化模型参数,通过遍历所有可能的参数组合找到全局最优解;XGBoost模型通过不断添加树来优化目标函数,每次添加一棵树都是学习一个新函数,用于拟合上次预测的残差,每棵树的学习目标就是使损失函数的残差最小,XGBoost模型训练过程如下:步骤31:初始化模型,设置XGBoost模型的基本参数,至少包括学习率、树的最大深度、目标函数;步骤32:将训练集的34个气象参数特征和标签样本加载到构建的XGBoost模型中进行训练,具体包括:步骤321:构建第一棵树,所述XGBoost模型基于训练集的气象参数特征和标签样本,采用贪心算法构建第一棵树,树的每个节点会根据输入的34个气象参数特征的重要性进行分裂,以最大化信息增益的目标函数,最后第一棵树会输出第一预测值f1;步骤322:添加第二棵树,使用第一棵树的残差作为新的目标变量,即真实值与第一预测值f1的差值,所述XGBoost模型开始构建第二棵树,第二棵树同样基于34个气象参数特征和新的目标变量进行构建,并输出第二预测值f2;步骤323:迭代构建的所述XGBoost模型中的剩余树,这个过程会迭代进行,每次使用前一棵树的残差作为新的目标变量,构建下一棵树,一直到最后一棵树,即第k颗树,得到第k个预测值fk,随着树的增加,所述XGBoost模型的预测能力会逐渐提高,残差会逐渐减小;步骤324:,每棵树都会对残差进行学习并产生一个预测值,将第一预测值f1至第k个预测值fk求和相加,得到XGBoost模型对输入雷达回波数据的预测结果;步骤325:模型评估与调优,通过网络搜索算法根据XGBoost模型在测试集上的客观评价指标进行判断以便调整XGBoost模型的参数,网格搜索算法通过穷举搜索的方式,在给定的超参数空间中寻找最佳的超参数组合,然后将这些参数组代入XGBoost模型中进行训练,通过交叉验证评估XGBoost模型的性能,选择性能最优的参数组作为最佳参数,保存最优参数组合的模型,具体包括:首先,确定XGBoost模型的网络参数的取值范围,形成一个参数网格;再使用网格搜索算法遍历参数网格中的每一组参数组合,对于每一组参数,使用龙卷风训练集训练XGBoost模型。应用交叉验证来评估该组参数下模型的性能,将训练集进一步划分为多个折叠。在每个折叠上,模型训练集进行训练,并使用验证集数据进行验证,每个折叠都会得到一个性能评估指标。计算所有折叠上的平均性能评估指标,作为该组参数下模型的最终性能;选择性能最好的那组参数作为最佳参数组合,使用最佳参数组合重新训练XGBoost模型,并在测试集上评估其性能,此时训练结束所得到的模型就是最终模型;步骤4:输出测试结果,将测试集输入训练好的XGBoost模型进行预测,得到最终的预测结果,预测结果是所有树输出的预测值之和;步骤5:采用二分类混淆矩阵对XGBoost模型的性能进行评估,当测试集进入模型后,XGBoost模型将输出预测类别,根据二分类混淆矩阵得到客观评价指标。
全文数据:
权利要求:
百度查询: 成都信息工程大学 一种基于XGBoost模型的龙卷风识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。