《Environmetrics》:XGBoost Meets INLA: A Two-Stage Spatio-Temporal Forecasting of Wildfires in Portugal
编辑推荐:
摘要:野火对葡萄牙构成重大威胁,1980–2024年间年均过火面积超11.5万公顷,该国曾遭遇2017年等严重特大火灾,因此准确的野火发生及过火面积预测对消防资源调配与应急准备至关重要。本研究提出一种新颖的两阶段集成方法,扩展了常用的潜高斯(latent Ga
摘要:野火对葡萄牙构成重大威胁,1980–2024年间年均过火面积超11.5万公顷,该国曾遭遇2017年等严重特大火灾,因此准确的野火发生及过火面积预测对消防资源调配与应急准备至关重要。本研究提出一种新颖的两阶段集成方法,扩展了常用的潜高斯(latent Gaussian)建模框架,采用集成嵌套拉普拉斯近似(Integrated Nested Laplace Approximation, INLA)进行时空野火预测。第一阶段应用梯度提升模型(XGBoost)于环境协变量和历史火情记录,生成次月火点计数与过火面积的点预测;第二阶段将这些预测作为外部协变量纳入含额外时空随机效应的潜高斯模型中,以生成市镇(council)级月度总火点计数与过火面积的概率预测。为同时捕捉中等与极端事件,研究人员在INLA中实现了扩展广义帕累托(extended generalised Pareto, eGP)似然(一种次渐近分布),为其参数推导了惩罚复杂度(Penalised Complexity, PC)先验,并将eGP似然与常用替代分布(如Gamma和Weibull)进行比较。该框架解决了预测时未来环境协变量不可用的问题,并在次月超前预测中表现良好。
论文解读:《XGBoost Meets INLA: A Two-Stage Spatio-Temporal Forecasting of Wildfires in Portugal》
研究背景与意义
葡萄牙是欧洲野火影响最严重的国家之一,受地中海气候影响,夏季高温干燥且植被茂密,历史上多次发生造成大量人员伤亡与生态损失的特大火灾(如2017年6月事件)。准确的野火发生概率及过火面积定量预测对早期预警与消防资源分配具有重要意义。现有野火统计与机器学习模型主要分为点过程模型和面域(areal)聚合模型两类。主流的时空潜高斯模型多依赖INLA(Integrated Nested Laplace Approximation,集成嵌套拉普拉斯近似)进行贝叶斯推断,但面临两大局限:一是典型的回顾性建模假定t时刻协变量可预测t时刻响应,导致实际预报时未来气象等环境协变量不可得;二是INLA框架下难以直接纳入大量非线性交互的环境协变量。此外,过火面积呈强零膨胀与重尾(heavy-tailed)分布,常规Gamma或Weibull似然对极端大火拟合不足。为此,研究人员提出了一种结合XGBoost与INLA的两阶段概率预测框架,引入次渐近的扩展广义帕累托(extended Generalised Pareto, eGP)似然以同时刻画中等与极端过火事件,并通过葡萄牙2011–2023年市镇级野火数据进行验证。该研究成果发表于《Environmetrics》。
主要关键技术方法
研究人员使用葡萄牙自然保护研究院(ICNF)2011–2023年野火记录(过滤保留过火面积>1 ha且持续时间>3 h的事件),按278个市镇(council)和月份聚合得到43368个市镇-月观测值,响应变量为月总火点计数与总过火面积(取平方根缓解偏态)。环境协变量共11个,源自ERA5-Land与ERA5再分析资料(气温、降水、风速风向、露点、绿叶面积指数、土地覆被类型、相对湿度及火险天气指数Fire Weather Index, FWI),经市镇质心匹配与月度平均聚合。第一阶段:构建窗口自回归(lagged autoregressive)特征(含过去火情历史至滞后9个月及年周期特征),分别用XGBoost以Poisson损失预测火点计数、以Tweedie偏差损失(复合泊松-伽马分布)预测过火面积,采用时序感知的逐年滚动交叉验证防止信息泄露。第二阶段:将XGBoost点预测作为平滑随机效应(一阶随机游走RW1离散化分箱)纳入贝叶斯潜高斯层次模型,火点计数采用零截尾泊松(zero-truncated Poisson),过火面积采用Hurdle模型(Bernoulli火发生+正值部分用eGP似然),空间结构采用BYM2(Besag–York–Mollié reparameterised)市镇与区(district)两级条件自回归(CAR),时间效应含季节分组与年度随机效应;eGP两形状参数ξ(上尾)与ζ(下尾)赋予PC(Penalised Complexity)先验,INLA做边际后验近似推断。对比模型包括替换eGP为Gamma(M2)、Weibull(M3),以及用滞后FWI与气温替代XGBoost预测(M4)。评估指标含AUC、连续排名概率得分(CRPS)及加权分箱得分(weighted binned scores)。
研究结果
4.1 Model Comparison(模型比较)
基于2023年测试集对比M1(eGP)、M2(Gamma)、M3(Weibull)、M4(滞后协变量)。M1取得最优AUC=0.862、最低CRPS=4.75及各分箱得分最小,eGP与Weibull略优于Gamma,三者差异微小;而M4(无XGBoost预测输入)各项指标显著恶化(AUC降至0.815),表明XGBoost编码的复杂时空信息对预测精度贡献关键,且eGP似然对重尾过火面积的联合建模具边际优势。
4.2 Posterior Predictions(后验预测检验)
通过阈值超越概率的后验预测检查显示,过火面积观测超越概率稳定落于后验预测分布50th–90th百分位区间;火点计数在低阈值略有偏离但未系统性超出预测包络。全国逐月总量后验预测中,包括2017年10月极端火灾期(>350起火、>25万公顷过火),观测值均处于预测分布IQR的1.5倍范围内,表明模型能较好捕捉时间演变趋势与极端事件。
4.3 Covariates and Latent Effects(协变量与潜效应)
4.3.1 XGBoost模型解释性:SHAP(SHapley Additive exPlanations)值显示最具影响力协变量为过去三年同月平均火点计数(conc_fc_hist_3)与平均过火面积(conc_ba_hist_3),环境因子中以气温(Temp)和相对湿度(RHumi)重要性最高,符合火灾气象驱动认知。
4.3.2 潜高斯年度效应与XGBoost预测效应:仅2017、2018年火发生截距显著异于零(对应历史极高频与政策调整后骤降);XGBoost预测效应在线性预测器中呈总体递增但非严格线性关系(尤过火面积大值时),反映两阶段不同分布假设下的校准作用。
4.3.3 共享时空效应:市镇级BYM2时空效应夏季(7、8、10月)空间变异大,非火季较均一;个别市镇(Montalegre一月、Vinhais四月)呈异常偏高局部效应;区级效应呈北高南低梯度但幅值约为市镇级的15%;共享效应对火点计数的缩放参数大于过火面积。
4.4 Posterior Distributions of eGP Parameters(eGP超参数后验)
eGP上尾参数ξ后验明显右移集中≈0.45(先验对称于0),指示重尾结构适合极端过火;下尾参数ζ后验模≈4.6,表明正值部分密度无零点奇异性且呈钟形偏态,符合过火面积正值分布形态。
讨论与结论翻译
研究人员指出过火面积采用平方根变换可在缓解偏态与不过度压缩上尾间取得平衡,使eGP参数ξ后验稳定;eGP、Weibull与Gamma似然预测性能差异微小,归因于潜高斯模型中条件独立假设及线性预测器主导边际似然,当线性预测器含强信息量协变量(XGBoost预测)时可充分刻画主体与极端观测,使尾部参数影响相对次要;针对多步预测可采用各 horizon 单独训练XGBoost与INLA的实用方案,实证显示1–3月 horizon 性能无显著退化;Stage 1 可用其他集成或深度学习模型替代但XGBoost兼顾表格式数据性能与超参可控性而被选用。
结论:研究人员提出了一种两阶段集成时空预测框架,通过窗口自回归XGBoost生成次月火点计数与过火面积点预测并将其作为潜高斯INLA模型的合成协变量,解决了未来环境协变量不可获及INLA难纳多预测因子的问题,同时在INLA中首次实现次渐近eGP似然以联合建模中等与极端过火事件。模型比较证实XGBoost衍生协变量显著提升预测准确性,eGP似然对边际性能略有改善。该框架可扩展至更长预见期,未来可进一步纳入人类活动相关协变量以提升预测能力。