《Atmosphere》:Machine Learning-Based Prediction of High-Level Clouds: Integrating Meteorological Observations with Independent Lidar Validation
Maxim Penzin,
Konstantin Pustovalov,
Olesia Kuchinskaia,
Denis Romanov,
Ivan Akimov and
Ilia Bryukhanov
编辑推荐:
本研究开发了一种基于机器学习(Machine Learning, ML)的预测模型用于识别高层云(High-Level Clouds, HLCs;包括卷云Ci、卷层云Cs和卷积云Cc)。模型以气象参数(温度、绝对湿度与相对湿度、气压、风向风速)为输入特征,并以
本研究开发了一种基于机器学习(Machine Learning, ML)的预测模型用于识别高层云(High-Level Clouds, HLCs;包括卷云Ci、卷层云Cs和卷积云Cc)。模型以气象参数(温度、绝对湿度与相对湿度、气压、风向风速)为输入特征,并以人工记录的气象观测结果为标签进行训练。研究人员对两种独立的HLC记录方法——地基激光雷达(Lidar)与地面气象观测——进行了统计分析,确定了使两者结果一致的总云量最优阈值。结果表明,ML模型在揭示天气条件与HLC探测概率之间的联系方面表现良好,高层云存在类别的受试者工作特征曲线下面积(Receiver Operating Characteristic Area Under the Curve, ROC AUC)值为0.87–0.88,不存在类别为0.77–0.78,且精确率(Precision)、召回率(Recall)及F1值均较为均衡。极端梯度提升(eXtreme Gradient Boosting, XGBoost)模型被证实为最稳健的模型,能有效整合异构数据并在多种条件下实现可靠预测。
《Machine Learning-Based Prediction of High-Level Clouds: Integrating Meteorological Observations with Independent Lidar Validation》论文解读
一、研究背景与立题依据
云通过反射太阳短波辐射和捕获长波(热)辐射显著影响地球辐射能量收支及能量平衡,进而干扰地表卫星遥感影像质量,是环境监测和气候学研究的关键因子。高层云(High-Level Clouds, HLCs;海拔>6 km,由冰晶组成,含卷云Ci、卷层云Cs、卷积云Cc)虽光学厚度低,但因水平范围广(可达全球表面积半数),对长波辐射强迫的贡献与低云相当甚至更大,显著影响温室效应。目前卫星及深度学习云检测在薄透云、层状复杂云结构的检测精度与泛化能力不足,传统阈值法对光谱信息有限场景效率低,且缺乏地面独立物理基准验证。地面气象观测提供常规宏观云状与云量,激光雷达(Lidar)可提供高分辨率垂直消光/后向散射极化信息,二者互补可提升HLC识别可靠性。本研究旨在融合ERA5再分析气象要素与地面气象观测标签训练ML分类器,并以独立地基偏振激光雷达数据作为外部物理验证基准,探究气象热力学剖面与HLC发生的关系并确定两种观测手段的一致条件。
二、主要技术方法概述
研究使用俄罗斯托木斯克(Tomsk, ID 29430,56°26′50″N, 84°58′28″E)水文气象站(Hydrometeorological Station, HMS)2010–2024年同步观测数据(云量总分、低云量、HLC形态有无)及同址高架矩阵偏振激光雷达(High-Altitude Matrix Polarization Lidar, HAMPL)探测数据(共2258组,其中1476组时间同步)。气象输入特征提取自ERA5第五代欧洲中期天气预报中心再分析(ERA5 Reanalysis)数据,将等压坐标转为几何高度(Z = RT/g ln(p0/p)),取6000–12000 m层内各参数均值。HLC有无编码为二分类标签(0=无,1=有)。剔除总云量<4成(稀疏非垂直HLC干扰)样本后,按7:1.5:1.5切分训练/验证/测试集。对比算法含极端梯度提升(XGBoost)、LightGBM、CatBoost、SVM(RBF核)、k近邻(k-NN)、Logistic回归、高斯朴素贝叶斯;距离基模型做StandardScaler与PCA处理,用网格寻优调超参数。评估指标含混淆矩阵、精确率(Precision, P = TP/(TP+FP))、召回率(Recall, R = TP/(TP+FN))、F1= 2PR/(P+R)、ROC AUC。对气象站与激光雷达二元检测结果建列联表,做Pearson χ2检验(χ2 = Σ(Oij?Eij)2/Eij)与优势比(Odds Ratio, OR = O00O11/(O01O10))判断依赖性,用χ2拟合优度检验分布一致性,确定总云量过滤阈值使两数据源视为同分布。
三、研究结果
3.1 数据预处理与可视化(Data Preprocessing and Visualization)
对ERA5剖面6000–12000 m均值化后,Pairplot散点图显示温湿、风场等参量在HLC有无类间均值偏移但无线性可分性。UMAP降维投影呈现两类较清晰聚类及少量重叠,说明所选气象要素对有无HLC的大气热力动力态具区分度,适合非线性ML建模。
3.2 气象观测与激光雷达数据联合可用性分析(Investigation of the Possibility of Simultaneous Use of Meteorological Observations and Lidar Sensing Data)
按HLC类型设时间匹配窗(Cs/Cc基低云界下<8000 m允62 min,Ci≥8000 m允32 min)。列联表(n=1476)得χ2 = 245.7 >> χ20.01,1= 6.635,拒绝独立假设,表明两种方法显著关联;OR = 15.47,95%CI [15.15, 15.76]不包含1,证实强正相关。激光雷达可探测微弱垂直HLC回波而人眼不能(平均总云量0.52成),气象员见HLC而激光雷达漏检多因光束穿过云隙(平均总云量5.25成)。经筛选总云量=0或≥4成后重检,χ2 = 3.61(p > 0.01),两分布无显著差异,满足同源假设用于后续建模验证。
3.3 高层云有无的ML预测模型构建(Development of an ML Model for Predicting the Absence and Presence of HLCs)
梯度提升树(Gradient Boosting Decision Tree, GBDT)系模型表现最优。XGBoost在气象观测测试集上:HLC存在类ROC AUC 0.87–0.88,Precision 76–77%,Recall 84–85%,F166–68%;HLC不存在类ROC AUC 0.77–0.78,Precision 85%,Recall 75%,F177–78%。LightGBM与CatBoost相近。激光雷达独立验证集指标略降(因FOV局限与HLC空间非均匀性),但仍显示稳健泛化。10折×5次重复交叉验证表明XGBoost指标波动小、稳定性高。
四、讨论与结论总结
研究区域位于西伯利亚平原温带区,结论适用于同类大陆性气候区;热带或山地需重新校准。未来拟引入MODIS卫星数据细化中等云量(1–3成)判别,并引入Time Fusion Transformers处理ERA5/MERRA-2时间序列以提升短时预报。
结论:ML模型尤其XGBoost可有效挖掘气象剖面与HLC出现概率的非线性热力学关系,ROC AUC达0.87–0.88(存在)/0.77–0.78(不存在),指标均衡。通过对气象站与激光雷达数据的统计关联分析,确定总云量全无(0成)或≥4成时两观测手段判定结果具统计同分布性,为融合异源数据做HLC预测提供了依据与验证框架。