基于POT框架的GAM与MARS回归区域洪水估算研究

《Hydrological Sciences Journal》:Regression-based regional flood estimation using GAM and MARS within a peaks-over-threshold framework

【字体: 时间:2026年06月19日 来源:Hydrological Sciences Journal 2.5

编辑推荐:

  本研究将多元自适应回归样条(Multivariate Adaptive Regression Splines, MARS)和广义可加模型(Generalized Additive Models, GAM)应用于超阈值峰位(Peaks Over Threshol

  
本研究将多元自适应回归样条(Multivariate Adaptive Regression Splines, MARS)和广义可加模型(Generalized Additive Models, GAM)应用于超阈值峰位(Peaks Over Threshold, POT)框架,利用来自澳大利亚东南部145个流域的数据进行区域洪水频率分析(Regional Flood Frequency Analysis, RFFA)。研究采用7个地理形态和气象变量作为预测因子,并通过广义帕累托分布(Generalized Pareto distribution)估算洪水分位数。模型性能通过平均绝对误差(Mean Absolute Error, MAE)和平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)结合留一法交叉验证(Leave-One-Out Cross-Validation, LOOCV)进行评估。研究结果表明,GAM在所有情形下均优于MARS,表现出更低的误差变异性、更窄的残差分布和更优的泛化能力,尤其在数据稀疏的内陆流域中表现突出。GAM的平滑函数框架能够有效捕捉非线性水文关系,而MARS则显示出更大的预测偏差和更高的变异性。在所有重现期下,GAM模型的中位相对误差基本保持在±10–15%范围内,且预测比值集中于1附近,表明其估算结果无偏且稳定。
该论文发表于《Hydrological Sciences Journal》,研究人员针对澳大利亚东南部地区开展了基于POT框架的GAM与MARS回归区域洪水估算研究。以下从研究背景、技术方法、研究结果和讨论结论四个方面进行解读。

研究背景方面,可靠的洪水频率分析对于水利工程结构设计、洪泛区管理以及防洪安全至关重要。传统的区域洪水频率分析方法主要依赖年最大值模型和指标洪水法,但这些方法难以捕捉复杂水文过程,尤其在气候和地理条件多样化的区域存在明显局限。随着统计学习方法的发展,MARS和GAM等灵活建模技术逐渐受到关注,能够有效刻画非线性水文关系及预测因子间的交互作用。POT方法作为年最大值模型的替代方案,通过考虑超过预设阈值的全部洪水事件,提供了对极端洪水的更完整表征,但其区域推广应用仍面临阈值优化、事件独立性保证等挑战。澳大利亚东南部地区气候与水文条件复杂多样,受ENSO、印度洋偶极子等大型气候模式影响,流域间水文响应差异显著,且该区存在大量未设站流域,亟需发展适用于无资料区的高精度洪水估算方法。在此背景下,研究人员开展此项研究,旨在系统比较MARS和GAM在POT框架下的区域洪水估算性能,评估其对区域水文变异性的捕捉能力,为无资料区的洪水风险评价提供更为可靠的统计方法。

关键技术方法部分,研究人员主要采用了以下核心方法:样本来源于澳大利亚东南部新南威尔士州和维多利亚州的145个测站流域,集水区面积介于11–1010 km2,流量记录 records 长度为27–83年。研究选取7个预测变量,包括集水区面积(AREA)、年平均降雨量(MAR)、集水区形状系数(SF)、年平均蒸发量(MAE)、河流密度(SDEN)、坡度差(S1085)和森林覆盖率(FOREST)。在POT3框架下构建超阈值洪水序列(年均3次),采用广义帕累托分布拟合并估算12 EY至100 ARI共11个重现期的洪水分位数。模型构建方面,MARS通过"地球"包实现,经过前向添加基函数和后向剪枝优化广义交叉验证得分;GAM则借助"caret"包进行平滑函数拟合与评估。模型验证采用留一法交叉验证为主、80/20分割样本为辅的策略,采用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、相对误差(REr)、绝对相对误差(REA)、预测比值以及决定系数(R2)等多指标综合评价模型性能。

研究结果部分,研究人员通过系统分析得出以下结论。

残差分布特征方面,图4的箱线图显示,在极高频洪水范围(12 EY至1 EY),两模型残差主要集中于零值附近,GAM的箱线图略窄于MARS,表明其残差分布更为集中。随着重现期增大至高频范围(0.5 EY至10 ARI),残差变异性明显增加,但GAM始终保持较窄的分布范围。图5和图6的诊断图进一步证实,两模型残差近似正态分布,但GAM的密度图呈现更尖锐的峰值和更窄的尾部,散点图中数据点更紧密地聚集于1:1线附近,表明GAM对12 EY和0.5 EY重现期的预测精度略优于MARS。

相对误差与绝对误差分析方面,图7上半部分显示,在极高频范围内两模型的相对误差(REr)分布较为集中,中位值接近零,无系统性偏差;GAM的四分位距(IQR)更窄,表明其预测更为稳定。进入高频范围后,误差分布展宽,但GAM的优势更加明显。图7下半部分的平均绝对误差(MAE)显示,随重现期增大误差呈上升趋势,GAM在各重现期均保持较低的MAE值,且在50 ARI和100 ARI时与MARS的差距进一步拉大。图8上半部分的绝对相对误差(REA)分布呈现类似规律,GAM的中位值更低、分布更集中;下半部分的MAPE曲线显示,GAM值稳定在约42%左右,而MARS从55%上升至88%(100 ARI),表明MARS在稀遇洪水条件下的比例误差急剧恶化。

预测比值与交叉验证分析方面,图9显示两模型的预测比值中位值均接近1,但GAM的箱体更窄、 whisker 更短,极端比值出现频率更低。采用LOOCV验证后,图10–12进一步强化了上述结论:GAM的绝对相对误差分布更集中(图10),R2值更高且更稳定(图11),预测比值更趋近于1且变异性更小(图12)。特别在100 ARI时,GAM的R2中位值约为0.30,而MARS降至约0.18,显示GAM在数据稀疏的稀遇洪水条件下具有更强的稳定性。

站点尺度与空间分布分析方面,图13的站点误差分布显示,GAM在0–25%低误差范围内的站点数量多于MARS,而高误差站点(>75%)更少。图14和图15的LOESS平滑曲线揭示了两模型表现随集水区尺度的变化规律:对于12 EY重现期,GAM在小型和大型集水区均略优于MARS;对于0.5 EY重现期,MARS在小型集水区略有优势,但随集水区增大GAM逐渐反超。图16和图17的空间分布图表明,两模型在沿海地区的预测精度均高于内陆,但GAM的优势在内陆干旱区更为显著,其低误差站点比例更高,高误差站点更少。

高误差站点特征分析方面,图18对14个绝对相对误差超过75%的站点进行了特征分析,发现这些站点主要分布于内陆地区,具有年降雨量(MAR)变异性大、河流密度(SDEN)低、坡度差(S1085)变化显著等特征,反映了复杂地形与气象条件对模型预测的挑战。

讨论与结论部分,研究人员系统比较了两模型的理论特性与实际表现。MARS虽在理论上擅长通过自适应分段线性函数捕捉局部非线性和交互效应,但其性能高度依赖数据密度,在数据稀疏条件下易出现过拟合;GAM则通过惩罚平滑项有效避免了这一问题,在澳大利亚复杂多变的水文环境中表现出更强的 adaptability。地理分析进一步揭示,内陆地区的水文 heterogeneity 是模型误差的主要来源,GAM的平滑函数框架更能适应这种空间变异性。

研究结论指出:第一,GAM在POT框架下的区域洪水估算中全面优于MARS,无论何种重现期均表现出更低的误差、更窄的残差分布和更强的泛化能力,尤其在数据稀疏的内陆流域优势显著;第二,GAM的平滑函数框架能够有效捕捉洪水 magnitude 与水文预测因子间的非线性依赖关系,而MARS的分段线性方法在数据不足时易产生较大偏差;第三,两模型在沿海水文条件稳定区域均表现良好,但在内陆复杂区域GAM的稳健性更为突出;第四,高误差站点主要集中于河流密度低、降雨变率大、坡度梯度陡的内陆流域,这些区域是未来模型改进的重点。研究人员建议未来探索MARS局部划分能力与GAM平滑泛化能力相结合的混合建模框架,并引入高分辨率水文气象数据集、空间显式机器学习模型及集成学习技术,以进一步提升洪水估算的可靠性,为变化环境下的洪水风险管理提供更有力的科学支撑。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号