一种针对中型和大型湖泊的、基于区域特性的水质建模框架,采用可解释的机器学习方法

《Journal of Environmental Management》:A zone-specific water quality modelling framework for medium and large lakes using interpretable machine learning

【字体: 时间:2026年03月25日 来源:Journal of Environmental Management 8.4

编辑推荐:

  提出基于机器学习的可解释分区建模框架,通过聚合与分区策略结合,采用XGBoost算法在阳城湖案例中验证,发现气温和水位是TN、TP预测的主要因子,支流输入和内源负荷在不同湖区影响显著,为类似湖泊的水质管理提供决策支持。

  
成永全|张若楠|李一平|邵东东
北京师范大学湿地保护与恢复国家重点实验室与环境学院,北京,100875,中国

摘要

湖泊特征的显著空间异质性对中大型湖泊水质的准确预测和有效管理构成了持续性的挑战。在这项研究中,我们开发了一个基于可解释机器学习(ML)的、针对特定区域的建模框架,以改进关键水质参数的预测并理解其动态变化。该框架被应用于中国阳澄湖这一大型富营养化湖泊,使用两种不同的建模策略(聚合和分离)和三种ML算法(极端梯度提升(XGBoost)、随机森林(RF)和支持向量回归(SVR)来预测总氮(TN)和总磷(TP)的浓度分布并识别其变化驱动因素。研究结果表明,采用聚合建模策略的XGBoost算法能够有效捕捉跨区域的污染物传输,并在所有湖泊区域实现最佳的水质预测性能。空气温度被确定为TN预测的最重要变量,而水位则是所有湖泊区域TP预测的关键变量。来自三条支流(结泾、北河泾和南小泾)的输入以及内源性负荷也被发现是西部和中部湖泊区域营养物质的主要影响因素。在东部区域,支流输入对湖泊营养物的影响显著减弱,内源性负荷发挥了更重要的作用。所提出的框架适用于其他中大型湖泊的水质预测和污染管理,为建模湖泊水质的空间异质性提供了一种有前景的方法。

引言

中大型湖泊通常定义为表面积超过50平方公里的湖泊,被认为是地球上最重要的地表淡水资源之一(Tilzer和Serruya,2012;Wang等人,2025a)。它们提供了多样的生态功能和服务,包括水循环调节、生物多样性维护和饮用水供应(Reynaud和Lanzanova,2017;Sterner等人,2020;Williamson等人,2009)。然而,由于其广阔的面积,加上外部源负荷的空间变异性、复杂的形态和地形以及内部生物地球化学过程,导致湖泊水文、水动力和营养物质分布存在显著的空间异质性(Janssen等人,2019;Liu等人,2024a;Sterner,2021)。因此,有必要在中大型湖泊中采用针对特定区域的建模方法,以更好地进行水质预测和管理。
传统的基于过程的水动力和水质模型(如MIKE、EFDC和WASP)可以准确模拟和预测湖泊中污染物的传输和转化过程,捕捉关键水质参数的时空分布(Li等人,2018;Tian等人,2022)。同时,这些模型可以通过模型情景模拟和参数敏感性分析帮助识别污染源和水质区域退化的原因(Ejigu,2021;Jiang,2018)。然而,这些基于过程的模型通常需要复杂的参数校准程序和详细的地形数据,而这些数据在中大型湖泊中并不总是可用的(Dang等人,2023;Huang等人,2024)。此外,当边界条件(如流入支流和地形)在不同湖泊之间变化时,还需要对模型进行大量修改(Cheng等人,2022;Neumann等人,2024)。
近年来,由于机器学习(ML)具有高效的计算能力、高预测精度以及处理非线性关系的优越能力,它已成为传统基于过程建模方法的宝贵补充(Yan等人,2025;Zhu等人,2022)。经典算法如支持向量回归(SVR)和人工神经网络(ANN),集成算法如随机森林(RF)和极端梯度提升(XGBoost),以及以长短期记忆为代表的深度学习算法,在中大型湖泊的水质建模中表现出色(Koranga等人,2022;Lu等人,2022;Ma等人,2025;Sinshaw等人,2019)。此外,还开发了其他ML算法,如高斯过程回归(GPR),它可以提供预测结果的同时提供不确定性估计,以及战略性地结合多种基础算法优势的集成或复合方法(Jin和Xu,2024a,2024b;Xu,2020;Xu和Zhang,2021)。此外,Shapley加性解释(SHAP)方法的发展成功解决了ML建模中可解释性不足的问题(Lundberg和Lee,2017)。因此,我们可以将水质预测模型转化为决策和管理工具,提供有价值的见解,释放ML技术在中大型湖泊特定区域建模中的巨大潜力(Recknagel等人,2025)。
利用ML技术对中大型湖泊进行水质特定区域建模的现有研究有限。在现有的研究中,它们通常采用聚类分析来划分具有相似水质特征的湖泊区域,然后使用每个区域独有的数据构建基于ML的特定区域水质模型。具体来说,Tao等人(2024)应用层次聚类分析将中国滇池划分为三个空间连续的簇,并使用集成算法为每个簇开发了藻类细胞密度预测模型,其中使用了该簇独有的数据。值得注意的是,Soleymani Hasani等人(2024)报告称,使用所有水质监测站点的组合数据构建的全湖模型可能在某些监测站点对某些水质参数(如总磷(TP)和硝酸盐+亚硝酸盐)的预测性能优于基于单个监测站点数据的模型。据我们所知,现有的相关研究主要采用了基于聚类的建模策略,并分别处理各个簇进行模型开发。然而,这些研究通常忽略了区域间的水动力连通性和污染物传输,将它们视为独立实体。不同簇(区域)之间的相互作用,即由于污染物传输和扩散而在不同簇(区域)之间产生的空间关联,没有得到充分考虑,外部影响因素(如来自周围支流的输入)也受到了有限的关注。尽管Soleymani Hasani等人(2024)比较了全湖模型和特定站点模型,但关于使用不同建模策略开发特定区域模型的研究仍然有限。具体来说,关于通过聚合建模策略(即使用所有区域和支流的组合数据)与分离建模策略(即使用目标区域及其相邻支流的专属数据)开发特定区域模型的比较研究仍有待进一步探索。
为了解决这一差距,我们提出了一个基于可解释ML的特定区域建模框架,以改进关键水质参数的预测性能,并支持有针对性的水质管理决策。该框架包括四个步骤:首先,使用聚类分析划分具有相似水质特征的湖泊区域。其次,使用两种不同的建模策略(即聚合和分离)确定每个湖泊区域的关键输入变量。第三,鉴于本研究中的样本量相对于潜在特征数量较少,我们选择了三种适合处理小型数据集的代表性算法,即XGBoost(梯度提升树)、RF(基于装袋的集成)和SVR(基于核的方法)。随后,比较这些算法以找到具有最佳水质预测性能的最佳算法。最后,应用SHAP来识别空间水质变化的关键预测因素。该框架被应用于中国江苏省的大型浅水富营养化湖泊阳澄湖,以展示其能力。该框架结合了ML的预测能力和实际湖泊水质管理所需的可解释性,通过特定区域建模方法实现。最终,希望这项工作所实现的可解释特定区域模型能够帮助研究人员和实践者为世界各地类似的中大型湖泊制定有针对性的水质管理策略。

研究区域

阳澄湖(北纬31°21′-31°30′,东经120°39′-120°51′)位于长江流域,是中国经济最发达的城市之一——苏州市内。该湖泊是苏州市的重要饮用水源,也是中国最著名的中华绒螯蟹(Eriocheir sinensis)的生产区(Xue等人,2022)。湖泊总面积为117.4平方公里,南北长约17公里,东西宽约11公里。

基于水质聚类分析的湖泊分区

2015-2024年间,阳澄湖六个采样点的水质数据通过层次聚类分析被分为三个簇(图3a)。统计测试显示三个簇之间存在显著差异(p < 0.05),表明分区有效地捕捉了湖泊水质分布的空间模式。簇1(即L01和L02)、簇2(即L03和L04)和簇3(即L05和L06)分别覆盖了湖泊的西部、中部和

ML算法比较

我们观察到各种ML模型在相同输入变量下的预测性能有所不同(表2)。与RF和SVR相比,XGBoost在预测TN和TP方面表现最佳。为了验证模型对时间变化的鲁棒性,使用随机选择80%的数据进行训练和剩余20%的数据进行测试的方法,以及10次重复的5折交叉验证来评估XGBoost聚合模型。结果显示

结论

为了更好地考虑中大型湖泊水质的空间异质性,我们提出了一个基于可解释ML的特定区域水质建模框架,并在一个具有代表性的浅水富营养化湖泊(即中国阳澄湖)上进行了案例研究,以展示我们的方法。本研究的主要结论如下:
  • (i)
    空间聚类分析是构建中大型湖泊特定区域水质模型的关键过程。
  • CRediT作者贡献声明

    成永全:撰写——原始草稿,调查,数据管理。张若楠:验证,软件。李一平:监督,资金获取。邵东东:撰写——审稿与编辑,监督,资金获取。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作得到了中国国家重点研发计划(项目编号:2023YFC3208905,2023YFC3208900)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号