《Frontiers in Environmental Science》:Development of a cascade recognition method for short-term heavy precipitation over the Yangtze River Delta
编辑推荐:
为应对长三角地区短时强降水(STHP,小时降水量≥20 mm)识别中的三大核心挑战——特征选择、样本不平衡及模型物理可解释性不足,研究人员构建了一种物理一致的级联识别模型。该模型基于2020—2024年ERA5再分析资料及高密度地面观测数据,首先通过逐步特征工
为应对长三角地区短时强降水(STHP,小时降水量≥20 mm)识别中的三大核心挑战——特征选择、样本不平衡及模型物理可解释性不足,研究人员构建了一种物理一致的级联识别模型。该模型基于2020—2024年ERA5再分析资料及高密度地面观测数据,首先通过逐步特征工程将71个候选因子降维至15个核心物理变量,随后系统比较了四种样本不平衡处理策略,最终采用沙普利加性解释(SHAP)方法验证级联模型的物理可解释性。结果表明,特征筛选使模型训练时间从8.89 s缩短至3.61 s,临界成功指数(CSI)从0.0059提升至0.0076。研究人员提出的四级级联识别模型表现最优,全局最优CSI达0.0398,较基线加权调整法(0.0262)和集成分类投票法(0.0323)分别提升52%和23%。SHAP识别出的主导因子随级联层级提升呈现系统性演变:初始阶段由A指数主导的对流不稳定性控制,并受700 hPa比湿、可降水量(PWV)等水汽因子协同调制;最终阶段演变为对流有效位能(CAPE)、垂直风切变及能量螺旋度指数(EHI)主导的动力触发机制。该级联识别框架通过任务分解模拟对流物理演化过程,有效缓解了降水分布的长尾效应,为精细化STHP监测及对流环境智能诊断提供了有效解决方案。尽管本研究采用ERA5再分析资料进行诊断建模,但该框架为未来融合数值天气预报(NWP)输出向业务预报过渡奠定了坚实基础。
该论文发表于《Frontiers in Environmental Science》,聚焦长三角地区短时强降水(STHP)的智能识别问题。研究背景源于STHP作为暖季强对流天气系统的关键致灾类型,具有显著的局地性、突发性和高致灾风险,常引发城市内涝、山洪及地质灾害。长三角地区位于东亚季风活跃区,受梅雨锋系、海陆风环流及复杂下垫面共同影响,是中国STHP最高发、灾害风险最突出的村寨区域之一,建立高时空分辨率的精细化监测预警体系具有紧迫的业务需求。
现有研究虽已尝试利用再分析资料和机器学习方法进行STHP识别,但仍面临三方面突出问题:其一,与STHP相关的环境变量具有高维性、强多重共线性及复杂交互特征,直接将大量物理变量输入模型会引入冗余信息,降低模型稳定性、可解释性与计算效率;其二,STHP作为典型低概率极端事件,目标样本远少于普通或无降水样本,传统分类模型易偏向多数类,导致极端事件学习不足;其三,传统单步识别方法难以刻画STHP从有利环境背景到强触发信号逐步演化的阶段性特征,识别边界模糊,制约了高分辨率预警应用。
针对上述问题,研究人员以中国长三角地区为研究对象,基于ERA5再分析资料和地面观测构建物理一致的级联识别模型。研究区域为114°E—123°E、27°N—35°N范围内的长三角地区,地形呈"西南高、东北低"格局,"山地—平原—沿海"地表配置形成复杂对流触发环境。数据方面采用欧洲中期天气预报中心(ECMWF)发布的第五代全球再分析资料ERA5(2020—2024年),水平分辨率0.25°×0.25°,时间分辨率1 h;降水标签来源于中国气象局"天擎"系统235个国家级气象站小时观测数据,按小时降水量≥20 mm定义为STHP事件。为避免时间自相关导致的信息泄露,采用年份分割策略:2021—2024年为训练集(5,253,372个样本,含5,285个STHP样本),2020年为独立测试集(1,062,129个样本,含1,131个STHP样本),样本比例约为1:1,000。
研究采用的关键技术方法包括:(1)三步特征工程:Spearman秩相关系数(|ρs|≥0.85)初筛、方差膨胀因子(VIF>10)剔除多重共线性、地理探测器(Geodetector)q统计量评估空间解释力及交互作用探测;(2)三种样本不平衡处理策略对比:类别权重调整(scale_pos_weight参数)、SMOTEENN重采样、弱分类器集成投票(LightGBM为基分类器);(3)四级级联识别模型:按0、5、10、20 mm/h强度阈值分层递进识别,前级输出作为后级输入;(4)SHAP归因分析解析不同级联层级的特征贡献演变;(5)模型评估采用命中率/召回率(POD/RECALL)、空报率(FAR)、临界成功指数(CSI)等非对称指标。
特征选择与特征工程结果表明,经Spearman相关分析和VIF递归消减,候选变量从71个降至36个;地理探测器进一步筛选出15个核心因子,分为水汽条件(PWV、850 hPa比湿、700 hPa比湿、850 hPa相对湿度)、热力不稳定/能量(A指数、850 hPa假相当位温、700 hPa假相当位温、500 hPa假相当位温、CAPE、DCAPE)、动力与触发(500 hPa垂直速度、700 hPa垂直速度、850 hPa垂直速度、850 hPa南风分量、EHI)三类。单因子q值均低于0.003,PWV最高(q=0.0027);但因子间存在显著非线性增强效应,如850 hPa假相当位温与DCAPE交互q值达0.0051,CAPE与850 hPa相对湿度交互q值为0.0045。特征筛选使训练时间减少59.4%(8.89 s→3.61 s),CSI从0.0059提升至0.0076,但FAR仍高达0.9825,表明仅靠特征筛选不足以解决极端不平衡下的高假报问题。
样本不平衡处理策略对比结果显示:方案一(权重调整)全局最优CSI为0.0262(scale_pos_weight=7),但高召回约束下(RECALL≥70%)CSI仅0.0077;方案二(SMOTEENN)在平衡验证集上表现优异(CSI=0.9103),但在保持自然分布的独立测试集上性能骤降(CSI=0.0088),表明合成样本难以捕捉STHP复杂物理特征;方案三(弱分类器集成投票)测试集全局最优CSI达0.0323,高召回约束下CSI为0.0108,稳定性和适用性优于前两者,但本质上仍为单步跃迁式检测框架。
四级级联识别模型结果为该研究核心创新。第一层(>0 mm)CSI达0.4880,RECALL为0.7585,将候选样本从1,062,129压缩至120,283;第二层(>5 mm)CSI降至0.1921,承担一般降水的初步增强与筛选;第三层(>10 mm)CSI回升至0.4002,RECALL达0.8695;第四层(>20 mm)在最终候选空间内CSI为0.2986,RECALL为0.8568,仅漏报162个目标样本。经阈值优化,全局最优阈值组合(th_0=0.725、th_5=0.650、th_10=0.575、th_20=0.500)验证集CSI达0.0585,测试集对应CSI=0.0398、RECALL=0.1309、FAR=0.9460,识别148个真阳性、2,592个假阳性、983个假阴性,综合性能最优。高召回约束下(th_0=0.275、th_5=0.350、th_10=0.500、th_20=0.275),CSI=0.0117、RECALL=0.7047、FAR=0.9883,显示级联结构在阈值调整方面具有高度灵活性。
模型性能综合对比表明,四级级联模型(方案四)测试集全局最优CSI(0.0398)较方案一(0.0262)、方案二(0.0088)、方案三(0.0323)均有显著提升,高召回约束下CSI(0.0125)亦优于其他方案,兼具更强综合识别能力与业务适应性。
讨论部分深入分析了三方面问题。关于模型输入选择,地理探测器结果支持"配料理论"(Doswell et al., 1996):深湿对流的发生不依赖单一参数强化,而是水汽、不稳定层结和动力抬升的最优时空配置。850 hPa假相当位温与DCAPE的强交互作用印证了Rotunno-Klemp-Weisman(RKW)理论中低层高能高湿空气与对流系统反馈机制的深耦合,850 hPa比湿与500 hPa垂直速度的协同增益则验证了充足水汽输送与强迫抬升的叠加效应。
关于传统不平衡解决方案的局限性,权重调整虽能提高召回率,但强制移动决策边界会导致大量假信号误判;SMOTEENN的数学插值无法保证与动力过程的热力学一致性,合成样本在自然分布下泛化崩溃;基于真实样本的下采样集成策略相对稳健,但仍受限于单步框架的固有限制。
关于级联模型的物理意义,SHAP归因揭示了特征主导性的动态演变:第一层(>0 mm)以A指数、850 hPa相对湿度、PWV、700 hPa比湿为主导,体现大气层结稳定性与水汽供给的"物理阈值过滤"功能;第二、三层(>5 mm、>10 mm)CAPE指数跃居首位,850 hPa假相当位温和DCAPE排名显著上升,模型演变为"对流潜力识别器";第四层(>20 mm)850 hPa南风分量、中低层垂直速度及EHI贡献显著增加,表明极端强降水依赖有组织上升运动、低空急流驱动的水汽输送及垂直风场配置共同构成的动力强迫环境。这种从"水汽-热力约束"到"不稳定能量控制"再到"动力强迫主导"的演变,为传统单级模型易产生"高湿弱动力"环境虚假预警提供了机制解释。
研究局限性包括:ERA5再分析资料时空分辨率(0.25°、1 h)不足以捕捉中尺度及小尺度对流系统触发、边界层精细热力学特征及云尺度物理过程;当前框架本质为环境场智能诊断而非直接预测预报,需耦合区域快速循环同化数值天气预报模型(如WRF_RUC)及高分辨率雷达反射率数据,才能向业务预警延伸。此外,模型在长三角地区的验证尚需扩展至江淮等气候背景与地形差异显著的区域。
研究结论部分翻译:为解决长三角地区短时强降水识别难题,本研究提出了一种物理驱动的多级级联机器学习框架,用于对流触发潜力的智能诊断。通过地理探测器优化特征后,研究首先揭示了强降水源于水汽、热力和动力因子的非线性协同效应,阐明了单特征线性降维的局限性并识别出与降水最强相关的因子。研究发现,传统数据驱动的不平衡处理策略(如权重调整、SMOTEENN)易产生过量假阳性,严重劣化模型在真实场景中的泛化能力。对此,提出的四级级联LightGBM模型在取得全局最优分类性能的同时,通过SHAP归因成功模拟了对流发展过程中特征主导性的动态转换:初始筛选由大气层结和水汽控制,后期则由动力因子主导。综上,本研究表明气象算法开发必须超越纯粹的数据层面积累,而应使模型架构与气象因子响应降水强度增加的物理规律深度对齐,唯有如此才能获得兼具高业务鲁棒性与清晰物理一致性的极端天气智能诊断模型。在当前实验设计下,该模型基于大尺度环境场实现监测诊断功能,其向实际预报预警系统的转化仍需后续与数值天气预报预报场耦合,以提供前瞻性预测信息。