《Water》:Integrated Data-Driven Multi-Criteria Analysis and Machine Learning Approaches for Assessment of Flood Susceptibility Mapping
Muhammad Rashid,
Sadiq Ullah,
Farnaz,
Saba Farooq,
Saif Haider,
Isabella Serena Liso and
Mario Parise
编辑推荐:
为应对频发的洪水灾害,提升山区流域的洪灾风险评估与空间规划能力,本研究综合运用多准则决策分析(AHP/FAHP)与多种机器学习模型(RF、SVM、LR、KNN、MLP),对巴基斯坦斯瓦特河莫赫曼德大坝集水区进行了洪水易发性评估。结果显示,降雨、土地利用/覆盖(LULC)和土壤质地是最主要的影响因子(各占11.11%),随机森林模型(RF)预测性能最优,研究表明约31.67%的区域处于高洪水风险中,为制定有效的流域管理和减灾策略提供了重要依据。
在全球气候变化和快速城市化的背景下,洪水已成为最频繁、最具破坏性的自然灾害之一。据估计,全球约23%的人口受到洪水影响,预计到2050年,受威胁人口将增至23亿。在发展中国家,由于基础设施薄弱、人口密度高且多集中在洪水易发区,洪灾造成的人员伤亡和经济损失尤为严重。巴基斯坦就是这样一个典型例子,作为全球人口第五多、对气候变化最脆弱第八的国家,其复杂的地形、季风主导的天气、冰川驱动的河流系统以及快速的土地利用变化,使其极易遭受洪水灾害。其中,斯瓦特河谷地区是受影响最严重的区域之一,由于河岸地区人口密集和季风期高强度降水,约230万居民面临巨大的洪水风险。2022年,由季风引发的史无前例的洪水影响了巴基斯坦全国超过3300万人,造成1730人死亡,130多万所房屋被毁。这次极端降雨比历史平均水平高出78%,引发了破坏性的山洪和泥石流。这些灾害凸显了从被动的灾害响应转向积极主动的、数据驱动的洪水风险评估和空间规划方法的紧迫性。
在此背景下,针对巴基斯坦北部的洪水灾害,国家和国际机构开始采纳综合风险管理(IRM)范式,强调主动的风险识别而非被动响应。这亟需高效、空间明确且可靠的洪水易发性制图(FSM)方法,以促进流域管理、土地利用规划和基于证据的灾害风险削减。传统的FSM技术通常基于地理信息系统(GIS)、水文建模和多准则决策分析(MCDA)方法,如层次分析法(AHP)和模糊层次分析法(FAHP)。这些方法虽然透明且可解释,但在主观性、可扩展性、计算性能以及整合大量多源遥感数据方面存在局限,尤其是在数据有限的地区。近年来,机器学习(ML)的发展显著增强了FSM的能力,它能够模拟复杂的非线性关系,并提高预测准确性。随机森林(RF)、支持向量机(SVM)、梯度提升和人工神经网络(ANN)等ML算法已在多种自然地理和气候环境中被证明具有高性能。此外,通过将ML与谷歌地球引擎(GEE)等云平台相结合,可以高效处理高分辨率光学和雷达卫星影像,快速提取洪水相关指数,而无需依赖高性能本地计算基础设施。将ML与MCDA整合到混合框架中已成为当前洪水风险研究的最佳实践。尽管如此,最新的综述和元分析研究确认,FSM在模型整合、可扩展性和地理代表性方面仍面临持续的局限性。大量FSM研究仍然是基于单一模型且空间局域化的,这限制了其在不同地形条件下的可迁移性。尽管ML方法日益主导FSM,但缺乏ML与MCDA框架之间在复杂地形和季风驱动条件下的大规模严格基准测试。此外,尽管在季风主导的山地地区(包括巴基斯坦)山洪和泥石流风险在气候和土地利用变化下不断升级,但整合多源遥感的、基于云的集成FSM研究仍然不足。
本研究旨在填补这些空白,将MCDA方法(AHP和FAHP)与多种机器学习模型相结合,评估14个洪水参数,为巴基斯坦莫赫曼德大坝集水区制作高分辨率洪水易发性地图。所提出的框架利用多源遥感、云计算和集成学习来提高预测准确性、可扩展性和可解释性。研究成果可为灾害准备、流域管理和社区恢复力提供实践指导,并提供一种可复制的方法论,适用于全球其他洪水易发地区。
本研究主要运用了以下几项关键技术方法:
- 1.
数据获取与预处理:利用谷歌地球引擎(GEE)平台,处理了多源遥感与地理空间数据,包括Landsat-8、Sentinel-2影像和航天飞机雷达地形任务(SRTM)数字高程模型(DEM)。历史洪水清单来自政府记录和实地调查,用作建模的参考数据。所有数据在ArcMap 10.8和Python 3.13中进行了重采样和坐标系统一,以确保空间兼容性。
- 2.
洪水影响因子提取:基于研究区地貌特征和已有文献,选取了14个洪水影响因子,涵盖地形(高程、坡度、坡向、地形湿度指数TWI、地形位置指数TPI)、水文(距河流距离、排水密度)、环境(土地利用/覆盖LULC、归一化植被指数NDVI、地表温度LST)、人为(距道路距离、距建成区距离)、气象(降雨)和土壤(土壤质地)等多个维度。各因子在GEE和GIS中进行计算和分级。
- 3.
多准则决策分析与机器学习建模:
- •
AHP/FAHP:采用层次分析法和模糊层次分析法,通过专家打分进行因子间的两两比较,计算各因子的归一化权重,并结合标准化因子值,通过加权线性组合(WLC)生成洪水易发性指数(FSI)。
- •
机器学习:应用了五种监督机器学习模型,包括逻辑回归(LR)、K-近邻(KNN)、随机森林(RF)、支持向量机(SVM)和多层感知器(MLP)。采用分层10折交叉验证评估模型性能,以受试者工作特征曲线下面积(AUC)作为主要性能指标。通过SHAP(Shapley Additive exPlanations)值分析量化各特征对模型预测的影响强度和方向。
- 4.
模型性能评估与制图:通过接收者操作特征曲线(ROC)和AUC值比较AHP/FAHP与各ML模型的预测性能。使用表现最佳的模型生成研究区尺度的洪水易发性概率栅格图,并与AHP/FAHP结果进行对比。
研究结果
3.1. 关键因子的空间分布
- •
土壤类型:超过一半的研究区(53.28%)土壤类型属于高洪水易发性,主要为Gleysols和Calcaric Fluvisols,其排水率低,易加剧地表径流。
- •
土地利用/覆盖(LULC):建成区、裸地和水体合计占研究区面积的22.95%,这些区域位于研究区南部、北部和中部,具有高易发性。植被覆盖区则显示出较低的易发性。
- •
坡度(SL):大部分研究区(约81%)为缓坡和中等坡度,属于低至中等易发性。陡坡区(约占19%)虽然径流快,但在本研究中也被识别为高易发区,可能与快速产流和下游汇集有关。
- •
距河流距离(DS):距河流越近,易发性越高。约33%的区域(距河流较近)被归类为高或极高易发性。
- •
降雨(R):降雨是直接的驱动因子。约72%的区域(主要在中部和南部)因降雨量高而被划分为高或极高易发性。
- •
其他因子:地形湿度指数(TWI)高值区、高排水密度(DD)区、低海拔(EL)区、低归一化植被指数(NDVI)区、低地表温度(LST)区、低地形位置指数(TPI)(谷底)区、靠近道路(DR)和建成区的区域,均显示出较高的洪水易发性。
3.2. 多准则分析与因子权重
通过AHP分析,降雨、LULC和土壤质地被确定为最重要的三个因子,各自贡献权重为11.11%。一致性比率(CR)远低于0.1的可接受阈值,表明专家判断具有高度一致性。SHAP分析进一步揭示,距河流距离、高程和距建成区距离是最有影响力的变量。
3.3. 洪水易发性制图结果
应用AHP、FAHP和五种ML模型生成了洪水易发性地图。所有模型均识别出沿河道、城市化和裸地区域为高易发区。ML模型(尤其是RF和MLP)划分的高易发区边界更为清晰,显示出其捕捉非线性关系的能力。总体上,约31.67%(4320.40 km2)的研究区面积处于高洪水风险之下。
3.4. 模型性能评估
通过ROC曲线和AUC值评估模型性能。两种基于GIS的多准则方法(AHP和FAHP)表现出良好的预测性能(平均AUC约为0.85-0.86)。而所有机器学习模型均表现出优异的性能,其中随机森林(RF)和支持向量机(SVM)的平均AUC达到0.97,逻辑回归(LR)为0.97,K-近邻(KNN)和多层感知器(MLP)为0.95。这表明机器学习模型在预测洪水易发性方面显著优于传统的AHP/FAHP方法。
3.5. 地表温度与植被指数趋势分析
对2010年至2022年期间的地表温度(LST)和归一化植被指数(NDVI)进行的趋势分析显示,LST呈缓慢上升趋势,而NDVI均值保持在较低至中等水平。LST峰值与NDVI谷值存在一定对应关系,表明地表升温与植被减少可能相关,这可能通过减少下渗、增加径流而影响洪水易发性。年度LST与NDVI的散点图分析显示,两者相关性在年份间存在波动(相关系数R2介于0.2至0.95之间),表明植被并非影响地表温度模式的唯一因素,地形、土壤湿度等因素也起着重要作用。
结论与讨论
本研究成功将多准则决策分析(AHP/FAHP)与多种机器学习模型整合,应用于巴基斯坦莫赫曼德大坝集水区的洪水易发性评估。研究发现,降雨、土地利用/覆盖和土壤质地是最关键的致灾因子。随机森林模型在所有测试模型中表现出最强的预测性能。最终制图结果显示,研究区约有31.67%的面积属于高洪水风险区,主要分布在河道沿线、城市化区域和裸地。
讨论部分重点指出:
- 1.
AHP/FAHP与机器学习模型的比较与互补:AHP/FAHP模型在整合专家知识和物理解释方面具有优势,生成了符合地貌水文过程的易发性图。机器学习模型则能更好地捕捉致灾因子与洪水发生之间的复杂非线性关系,在预测性能上普遍更优。两者结合——即以AHP/FAHP提供可解释的框架和初始权重,再用机器学习进行数据驱动的优化和预测——被认为是当前洪水易发性分析的有效混合途径。
- 2.
与已有研究的对比:本研究使用的洪水致灾因子集与主流文献一致。研究结果与在巴基斯坦及邻近地区的其他洪水易发性研究具有可比性,均识别出低洼地形、靠近排水网络和人为主导的土地利用变化是洪水易发的主要驱动因素。本研究的特色在于在同一分析框架内综合比较了专家驱动(AHP/FAHP)与数据驱动(多种ML)的方法,并利用SHAP等方法增强了模型的可解释性。
- 3.
LST与NDVI动态的意义:观测到的LST升高和NDVI较低的趋势及其相互作用,对理解洪水危险性有重要意义。LST较高、NDVI较低的地区可能下渗减少、径流增加,从而提升洪水风险。将这些动态因子纳入易发性建模,可提高灾害评估的准确性。
- 4.
研究意义与应用价值:本研究提出的集成框架显著提高了洪水易发性制图的预测准确性、可扩展性和可解释性。生成的易发性地图可为决策者、规划师、水文工作者和灾害管理机构识别高风险区、确定减灾工作优先级提供直接支持。该方法论具有可重复性,可推广至全球其他具有类似地形和气候特征的洪水易发区,对于制定有效的防洪减灾、流域管理和韧性社区建设策略具有重要价值。