印度阿萨姆邦纳高恩县基于地理空间技术与机器学习的洪水易发性评估

《Geocarto International》:Geospatial and machine learning-based flood susceptibility assessment in Nagaon District, Assam, India

【字体: 时间:2026年06月01日 来源:Geocarto International 3.5

编辑推荐:

  洪水是布拉马普特拉(Brahmaputra)洪泛平原的主要自然灾害之一,对生命、农业和基础设施造成严重影响。本研究针对印度阿萨姆邦纳高恩县开展基于地理空间技术与机器学习的洪水易发性评估,将遥感(Remote Sensing, RS)与地理信息系统(Geogra

  
洪水是布拉马普特拉(Brahmaputra)洪泛平原的主要自然灾害之一,对生命、农业和基础设施造成严重影响。本研究针对印度阿萨姆邦纳高恩县开展基于地理空间技术与机器学习的洪水易发性评估,将遥感(Remote Sensing, RS)与地理信息系统(Geographic Information Systems, GIS)同集成提升模型相结合。研究人员利用多源数据构建了包含13个洪水孕灾因子和洪水清单点的空间数据库。研究采用先进模型XGBoost与LightGBM,并借助SHAP(SHapley Additive exPlanations)分析增强模型可解释性。结果表明,洪水易发性主要受归一化植被指数(Normalised Difference Vegetation Index, NDVI)、土地利用/土地覆被(Land Use/Land Cover, LULC)、降雨以及距河流距离控制。研究区约5.29%的面积处于高至极高易发区。模型验证显示出较强的预测性能,曲线下面积(Area Under the Curve, AUC)介于0.784至0.845之间,且经集成方法后性能进一步提升。该研究为洪水易发性制图提供了一个稳健且可解释的框架,可为洪涝易发地区的灾害管理与可持续规划提供支持。
该文发表于《Geocarto International》,围绕印度阿萨姆邦纳高恩县(Nagaon District)洪水易发性评估构建了一套融合地理空间分析与可解释机器学习的研究框架。研究背景在于,洪水是布拉马普特拉(Brahmaputra)河流域洪泛平原最具破坏性的自然灾害之一,长期威胁人口安全、农业生产、交通设施与区域发展。阿萨姆邦受季风降雨强烈、地势低平、河网密集和冲积平原广布等条件影响,洪涝反复发生,其中纳高恩县作为典型低地洪泛区,季节性洪灾频发,既造成耕地受淹,也引发农村聚落和基础设施受损。现有洪水易发性制图(Flood Susceptibility Mapping, FSM)虽然已广泛应用于防灾减灾,但传统水文模型通常依赖长期、连续且高质量的水文气象序列,在数据受限地区应用受到明显制约;同时,复杂机器学习模型虽具有较强预测能力,却常因“黑箱”特征而难以解释,限制了其在区域规划与政策制定中的透明应用。因此,开展面向纳高恩县的高分辨率、可解释、可迁移的洪水易发性研究,具有明确的科学价值与现实意义。

研究人员针对该问题,构建了基于遥感(Remote Sensing, RS)与地理信息系统(Geographic Information Systems, GIS)的多源空间数据库,并引入XGBoost与LightGBM两种提升型集成学习算法进行洪水易发性建模,同时借助SHAP(SHapley Additive exPlanations,基于博弈论的模型解释方法)揭示各环境因子对模型输出的贡献方向与强度。研究结果表明,纳高恩县洪水易发性并非在全域均匀分布,而是集中于局部热点区域;归一化植被指数(Normalised Difference Vegetation Index, NDVI)、土地利用/土地覆被(Land Use/Land Cover, LULC)、降雨、距河流距离和土壤是最关键的控制因子;研究区高和极高易发区合计约占5.29%,中等至极高易发区合计约占7.21%。模型评估显示,XGBoost、LightGBM及其集成方案均表现出很高预测能力,说明该框架能够有效识别洪水敏感区域。研究的重要意义在于,其不仅提高了洪水易发性制图精度,也通过可解释人工智能(Explainable Artificial Intelligence, XAI)增强了模型透明度,为洪泛平原区国土空间规划、农业风险管控和洪灾防治提供了依据。

研究人员开展研究所采用的主要技术方法包括:首先,基于2008—2023年洪水资料构建洪水清单图(Flood Inventory Map, FIM),数据来源包括BHUVAN平台、Sentinel-1合成孔径雷达(Synthetic Aperture Radar, SAR)影像、Bhoonidhi平台以及Google Earth目视解译;其次,选取13个洪水孕灾因子,包括高程、坡度、坡向、曲率、地形湿度指数(Topographic Wetness Index, TWI)、NDVI、距道路距离、距河流距离、LULC、降雨、岩性、土壤类型和土壤质地,并统一为30×30 m栅格;再次,采用方差膨胀因子(Variance Inflation Factor, VIF)与容忍度(Tolerance, TOL)检验多重共线性;随后利用XGBoost和LightGBM建模,并通过5折分层交叉验证和随机搜索进行参数优化;最后结合ROC曲线、AUC、准确率、精确率、召回率与F1值开展模型评价,并用SHAP解释变量贡献。

以下结合论文主体内容,对各部分研究结果进行系统解读。

5.1. Frequency ratio analysis of flood conditioning factors
该部分基于频率比(Frequency Ratio, FR)方法分析不同洪水孕灾因子类别与历史洪水发生之间的关联强度,为后续机器学习建模提供统计学参照。结果显示,洪水主要分布于低海拔、低坡度的洪泛平原区。高程21–68 m范围内集中了96.81%的洪水像元,FR为1.215;坡度0–2.02°范围内集中了82.04%的洪水像元,FR为1.605,说明地势低平是该区洪涝发生的重要地形基础。距河流0–1644 m范围内的FR为1.764,表明靠近河道区域更易发生洪水。土壤与地表环境方面,粉壤土(Silty Loam)FR为2.003,Acrisol Af48-2ab土壤FR为1.515,提示细粒土及特定土壤类型更易积水受淹。降雨1526–1650 mm等级FR为4.9318,而最低NDVI等级FR高达9.62,说明低植被覆盖或湿润裸露地表与洪水发生具有极强联系。LULC中水体类别的FR达到27.819,为所有类别中最高;草地与湿地的FR分别为2.519和1.903,反映出滨水、湿地及开敞低洼地是主要洪水敏感空间。总体而言,FR分析明确表明洪水与低海拔、缓坡、近河、湿度累积、高含水地表及低植被覆盖之间存在显著正相关关系。

5.2. Flood susceptibility mapping
该部分利用XGBoost与LightGBM框架生成纳高恩县洪水易发性分区图,并将研究区划分为极低、低、中等、高和极高5类易发区。结果表明,全区洪水易发性呈斑块化、局地聚集分布,而非连续均一扩展。极低易发区面积为2259.99 km2,占有效区域的89.62%,说明纳高恩县大部分地区在模型设定下总体洪水敏感性较低。极高易发区面积为92.38 km2,占3.66%;高易发区面积为41.05 km2,占1.63%;中等易发区面积为48.49 km2,占1.92%;低易发区面积为79.79 km2,占3.16%。进一步合并后可见,中等至极高易发区总面积为181.93 km2,占7.21%;高至极高易发区总面积为133.43 km2,占5.29%。这说明虽然高风险区域占比不大,但其空间上高度集中,是区域洪灾防控的核心靶区。研究据此指出,纳高恩县的洪水危险主要锚定于洪泛低地、近水地带及对水分变化敏感的地表单元。

该部分还结合SHAP结果解释了影响空间分区格局的主控变量。分析表明,最重要的预测因子依次为NDVI、LULC、降雨、距河流距离和土壤;距离道路、TWI、坡度和高程的重要性次之;岩性、坡向、土壤质地和曲率影响相对较弱。这意味着纳高恩县洪水易发性的形成主要受植被状况、地表覆被结构、水文邻近性、降雨输入以及土壤保水能力共同支配,而传统地形因子虽然仍具有统计意义,但在本区低平洪泛地貌背景下并非最强主导因素。

5.3. Model assessment
该部分通过ROC曲线与多项分类指标评价模型性能。结果显示,3种模型在验证阶段均具有极高判别能力,ROC曲线明显位于随机猜测线之上并集中于图形左上区域。LightGBM模型AUC为0.9904,准确率为0.9635,精确率为0.8990,F1值为0.9076,在平衡分类性能方面表现最佳。XGBoost模型AUC为0.9896,准确率为0.9611,精确率为0.8850,召回率为0.9214,F1值同样较高,说明其在识别洪水与非洪水区域方面具有稳定表现。集成模型AUC为0.9902,准确率为0.9621,精确率为0.8861,召回率达到0.9257,F1值为0.9055,显示其在洪水敏感区检出能力方面略占优势。综合来看,LightGBM更适于平衡总体分类质量,而集成策略在强调敏感性识别的情境下具有一定优势。论文由此认为,集成提升学习方法能够在数据受限环境下提供可靠的洪水易发性预测结果。

6. Discussion
讨论部分主要围绕易发性空间格局、主控因子综合作用及模型应用价值展开。研究指出,纳高恩县绝大多数区域处于极低易发等级,但这并不意味着不存在显著洪水威胁,相反,洪灾风险主要集中在少数水文连通性强、地势低平、排水不畅的局部区域。高和极高风险区呈紧密聚类分布,其形成受洪泛平原形态、地表连通性、湿度累积和地表物理性质共同影响。SHAP解释结果进一步支持了这一认识,尤其是NDVI的高重要性表明低植被覆盖、地表退化或水分饱和区域更易遭受洪涝;LULC的重要作用说明湿地、近水地和排水较差的开放土地更可能形成洪水热点;降雨与距河流距离的重要性则从外部水量输入和河道邻近性两个方面揭示了洪灾驱动机制。与此同时,土壤、TWI、坡度和高程虽非最强因子,但与上述因素共同构成了完整的水文—地形—地表覆被耦合机制。讨论部分还强调,集成方法兼具较强泛化预测与热点识别能力,而SHAP的引入显著增强了模型解释性,使机器学习不再局限于“黑箱”判断。就应用层面而言,181.93 km2的中等至极高易发区应优先纳入风险评估与缓解规划,133.43 km2的高至极高易发区则更应优先开展实地核查、基础设施筛查、农业风险评估和防灾准备。

研究同时指出若干局限性。首先,本研究主要基于静态环境因子,而洪水本质上是受降雨时序、河川流量、排水条件和季节变化共同影响的动态过程;其次,模型结果对洪水清单与输入栅格数据质量较为敏感;再次,研究未纳入洪水深度、流速、堤防溃决、河道输水能力等水力学信息,也未进一步整合暴露度、脆弱性及社会经济风险。因此,该研究的成果更适用于洪水易发性识别,而非完整洪水风险评估。

研究结论部分可译述如下:本研究成功利用XGBoost与LightGBM完成了纳高恩县洪水易发性制图与分析,表明洪水风险在空间上并不均匀,而是集中于局部热点区域。洪水易发性图将区域划分为从极低到极高的不同等级,其中约89.6%的区域属于极低易发等级,而高和极高易发区合计约占5.3%。尽管这些高易发区域面积较小,但对于灾害管理而言最为关键,因为它们是最可能发生洪水的地区。模型测试结果表明,3种模型均具有很强的预测性能,AUC均约为0.99;其中集成模型在召回率方面表现最佳,说明其在识别洪水敏感区方面具有较高敏感性,而LightGBM在整体平衡分类上表现最优。基于SHAP的解释进一步表明,NDVI、LULC、降雨、距河流距离和土壤是影响洪水易发性的主要因子,其次为距道路距离、TWI、坡度和高程。这说明植被、土地利用、水文条件、土壤属性和地形湿润状态之间存在复杂耦合关系,共同决定了研究区洪水易发格局。总体而言,该研究为纳高恩县洪泛平原管理、洪水缓解及防灾准备提供了科学依据,并表明可解释的集成机器学习方法是识别冲积平原洪水易发区、支持数据驱动洪灾管理的可靠而实用的工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号