《Atmosphere》:Physics-Guided Machine-Learning Correction of ERA5 Surface Downward Shortwave Radiation over China
编辑推荐:
准确的地表向下短波辐射(Surface Downward Shortwave Radiation, SDSR)对于太阳能资源评估、光伏应用及陆-气相互作用研究至关重要。尽管ERA5再分析资料被广泛用于辐射相关研究,但其在中国复杂地形与气候条件下仍存在显著不确定
准确的地表向下短波辐射(Surface Downward Shortwave Radiation, SDSR)对于太阳能资源评估、光伏应用及陆-气相互作用研究至关重要。尽管ERA5再分析资料被广泛用于辐射相关研究,但其在中国复杂地形与气候条件下仍存在显著不确定性。研究人员利用2024年4月至2025年3月中国气象局(China Meteorological Administration, CMA)辐射观测网162站(质控后保留160站)小时级观测数据,系统评估了ERA5 SDSR并构建了物理引导的轻量级梯度提升机(Light Gradient Boosting Machine, LightGBM)校正框架。原始ERA5存在强系统性正偏差(PBIAS = 57.40%, ME = 124.2 W/m2)及非线性结构偏差——低辐射条件下高估、高辐射条件下低估。最大误差出现在夏季南季风区和春季西北干旱区,反映了云消光、气溶胶衰减及地形代表性差异的综合影响。为针对这些机制进行校正,模型引入ERA5及哥白尼大气监测服务(Copernicus Atmosphere Monitoring Service, CAMS)中具有物理意义的预测因子,包括云微物理量、气溶胶光学厚度(Aerosol Optical Depth, AOD)、太阳几何参数及高程。SHapley Additive exPlanations(SHAP)分析表明所学校正行为符合已知辐射传输过程。在独立站点留一法测试集上,校正后皮尔逊相关系数从0.8680升至0.8967,均方根误差(Root Mean Square Error, RMSE)从173.1降至100.8 W/m2,同时大幅抑制了原始ERA5的正偏差。季节分块验证、插值敏感性分析、消融实验及多模型对比进一步佐证了框架稳定性。与FY-4B及Himawari静止卫星产品外部基准对比显示校正后ERA5显著缩小了与独立静止卫星产品间的差距。综上,该框架为改进中国区域ERA5 SDSR提供了有效且具有物理可解释性的途径。
论文解读——《Atmosphere》刊载研究:中国区域ERA5地表向下短波辐射(SDSR)的物理引导机器学习校正
研究背景与意义
地表向下短波辐射(Surface Downward Shortwave Radiation, SDSR)是陆-气系统的首要能量输入,对气候动力学、水文过程、生态系统功能及光伏发电选址与功率预测均具重要意义。中国地域横跨欧亚大陆东部,地形复杂(含青藏高原、西北干旱区、东部季风区),受东亚季风及人为/沙尘气溶胶共同影响,SDSR时空变异极强。目前地面辐射观测站点稀疏且分布不均,尤其西部及复杂地形区难以支撑大范围精细分析,因此广泛依赖再分析产品。欧洲中期天气预报中心(ECMWF)第五代全球大气再分析ERA5提供0.25°(约31 km)小时级辐射场,被气候、水文及可再生能源领域普遍采用,但其SDSR估算受云参数化、气溶胶表征及下垫面属性影响,在中国存在不可忽视的系统偏差——尤其在复杂地形、强气溶胶载荷及多云变率区。已有统计或纯机器学习校正多未充分引入与辐射衰减直接相关的动态物理变量(如气溶胶光学厚度AOD、云水路径),且缺乏物理可解释性,跨区域泛化能力亦待检验。为此,研究人员基于中国气象局(CMA)地面辐射站网小时观测,开展ERA5 SDSR偏差诊断并构建物理引导的Light Gradient Boosting Machine(LightGBM)校正框架,旨在降低统计误差并使校正行为符合辐射传输物理机制。
主要技术方法概述
研究人员选用中国大陆为研究区,按赵氏自然地理区划将研究区划分为青藏高原(TP)、西北干旱区(NWA)、北季风区(NM)及南季风区(SM)。地面真值来源于国家气象信息中心CMA 162站小时SDSR观测(2024年4月—2025年3月),经基线表面辐射网络(BSRN)物理限值与一致性质控后保留160站218,130个有效白天样本(cosSZA>0.05,观测>0)。再分析自变量提取同期ERA5单层级变量:SDSR、总云量(Total Cloud Cover, TCC)、低/中/高云量(LCC/MCC/HCC)、柱总水汽(Total Column Water Vapour, TCWV)、地表反照率、柱总云液态水(Total Column Cloud Liquid Water, TCLW)与柱总云冰水(Total Column Cloud Ice Water, TCIW),二者之和为云水路径(Total Cloud Water Path, TCWP);匹配采用最近格点法。气溶胶因子取自CAMS EAC4再分析:550 nm总AOD、沙尘AOD、柱臭氧(TCO3)及相关PM2.5信息,3小时数据线性插值为小时级。计算太阳天顶角余弦cos(SZA)作为太阳几何因子,并引入站点高程与气候区类别。LightGBM以残差(观测SDSR-ERA5 SDSR)为学习目标,校正值为ERA5预测值加模型输出残差。为避免时空自相关导致数据泄露,按站点7:3划分训练/独立测试集(约112训/48测),超参数经内部验证与早停确定。采用SHAP值量化各物理预测因子对校正方向的边际贡献以检验物理一致性。精度评价采用Pearson相关系数(r)、RMSE、平均绝对误差(Mean Absolute Error, MAE)、平均误差(Mean Error, ME)及百分比偏差(PBIAS),辅以Spearman秩相关与显著性检验;开展重复分组留站验证、季节阻断验证、最近点与双线性插值敏感性对比、特征组消融实验及与Random Forest、XGBoost多模型比较,并以FY-4B与Himawari静止卫星SSR产品作外部基准。
研究结果
3.1. Quality Assessment and Structural Bias of ERA5 SDSR
全国小时比对显示原始ERA5 SDSR与观测r=0.870,PBIAS=57.4%,RMSE=171.7 W/m2,MAE=139.0 W/m2,ME=124.2 W/m2,呈显著系统性高估。散点图揭示非线性结构偏差:低辐射时高估,约>380 W/m2过渡为低估,说明单纯常数偏移不足纠正,需引入云、气溶胶与湿度信息的非线性校正。
3.2. Spatial Distribution Characteristics of ERA5 Errors
空间上大部分站r>0.80(北方/西北更高),西南山地及华南偏低。RMSE与MAE大值集中于青藏高原及南季风区(四川盆地周边),ME正值遍及全国且在高原东缘及华南偏大。RMSE随TCC呈倒U型——晴空与全阴较小,多云条件(0.3–0.7)最大(>175 W/m2);ME在全TCC范围为正,近晴空与部分多云出现双峰,暗示晴空下气溶胶衰减不足与云天云消光不足共存;r随TCC增大由~0.94降至~0.81。
3.3. Spatiotemporal Evolution, Terrain Dependence, and Physical Drivers
RMSE高值带集中在20°N–35°N(3–8月,东亚夏季风活跃期,RMSE可达224.4 W/m2),冬半年高纬较小。台站RMSE中位及离散度随海拔升高阶梯上升(平原<200 m至高原>3000 m)。双变量分析显示:LCC与TCWP较宽范围ME仍为正,表明云消光低估;近晴空(TCC<0.3)AOD增大时ME明显增大,证实晴空高气溶胶下载弱致高估。分区看,西北与北季风区晴空高估更突出(沙尘/霾增AOD),南季风区与高原部分多云/阴天误差离散更大(云过程为主)。
3.4. Interpretability and Evaluation of the Correction Model
SHAP表明ERA5 SDSR自身、cos(SZA)、TCWV、高程、AOD为最重要预测因子。高AOD/沙尘AOD、高TCLW/TCIW/TCC、高TCWV多对应负SHAP值——模型学会在强衰减条件下下调ERA5估值,符合辐射传输原理;高海拔偶见正SHAP尾,反映高原薄大气短光程致地表辐射偏高趋势。独立测试集全国尺度:r由0.8680升至0.8967,RMSE由173.1降至100.8 W/m2,MAE由138.4降至66.1 W/m2,ME由123.8降至-4.8 W/m2,PBIAS由58.79%降至-2.29%。各区RMSE均降,西北干旱(196.8→94.1 W/m2)与南季风(168.4→92.7 W/m2)改善最显著,高原仍最具挑战(RMSE=148.1 W/m2)。时间序列显示校正后压制了ERA5不合理日间峰值,更好追踪观测起伏。
3.5. Robustness and Additional Validation
五次重复分组留站验证r=0.8937±0.0038,RMSE=102.4±1.8 W/m2,不依赖特定划分。季节阻断验证各季保持技能(JJA RMSE最高125.1 W/m2,DJF最低48.6 W/m2)。最近点与双线性插值全国RMSE差异极小(171.2 vs 170.7 W/m2),复杂地形差异略增但仍远小于原始ERA5误差。消融实验:去云变量退化最大(RMSE=103.7 W/m2),去大气/气溶胶次之,仅用ERA5辐射+cos(SZA)最差(RMSE=107.8 W/m2);去高程轻微降RMSE(97.6 W/m2),说明其部分冗余但具物理意义。LightGBM/RandForest/XGBoost均大幅优于原始ERA5,RandForest略优(98.6 W/m2),三者差距远小于与原始ERA5差距,性能提升主因是物理引导特征设计。
3.6. External Benchmark Against FY-4B and Himawari Satellite Products
以48站63,346样本外部基准:原始ERA5最差(r=0.8619,RMSE=178.9 W/m2),校正后ERA5(r=0.8906,RMSE=104.2 W/m2)大幅改善且PBIAS降至-2.32%(四产品中最小绝对偏差);FY-4B原始最优(r=0.9288,RMSE=85.9 W/m2),Himawari原始(r=0.9171,RMSE=108.4 W/m2)。分区上校正ERA5在西北干旱与南季风RMSE优于Himawari原始,整体显著缩小与静止卫星产品差距。
讨论与结论翻译
讨论指出中国区域ERA5 SDSR偏差是多因子耦合结果:南季风区与高原云不确定性主导,北季风与西北干旱晴空下气溶胶衰减主导,统一线性校正不足。物理引导框架加入CAMS动态AOD与ERA5云微物理量可针对性响应主要衰减路径。独立留站、季节阻断验证证明框架稳定与跨季节可移植,插值方式非主误差源。消融与对比说明辅助物理预测因子整体增益明显,云/大气变量贡献最大,LightGBM在精度、效率与SHAP兼容性间取得平衡。局限含仅一年站点数据、CAMS再分析AOD分辨率限制、地形仅用高程未含坡度坡向遮蔽、主要依赖CMA网评估。未来拟扩展多年验证、引入显式地形描述及高频静止卫星云/气溶胶产品。
结论翻译:(1)原始ERA5 SDSR在中国呈强系统性正偏差与非线性结构误差,全国r=0.870,RMSE=171.7 W/m2,ME=124.2 W/m2,PBIAS=57.40%,青藏高原与南季风区原始误差最大。(2)独立留站测试集校正后r升至0.8967,RMSE降至100.8 W/m2,MAE降至66.1 W/m2,ME降至-4.8 W/m2,PBIAS降至-2.29%。(3)四气候区均有改善,西北干旱与南季风RMSE降幅最大,青藏高原仍最难校正。(4)重复分组留站与季节阻断验证表明框架在不同站点划分与季节均有效,评估结论不受格点提取方式主导。(5)物理引导预测因子设计中云与大气变量贡献最显著,辅助预测因子整体优于仅用辐射+几何基线,三种树集成法均远优于原始ERA5。(6)外部基准中校正ERA5显著缩小与FY-4B及Himawari静止卫星产品差距,并在西北干旱与南季风区RMSE优于Himawari原始。该物理引导框架为改进中国区域ERA5 SDSR提供了有效且具物理可解释性的途径,可用于太阳能资源评估、光伏预报及气候辐射分析。