基于多模型集成学习的大规模流域水质预测：以中国鄱阳湖流域为例

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Contaminant Hydrology》：Water quality prediction based on multi-model ensemble learning in a large-scale basin: A case study of the Poyang Lake Basin, China

【字体：大中小】 时间：2026年03月28日 来源：Journal of Contaminant Hydrology 4.4

编辑推荐：

　　中国大型流域总磷（TP）预测与多尺度驱动机制分析：基于多模型集成与SHAP算法的鄱阳湖流域实证研究，系统评估13类单模型与3种集成方法（STK、BMA、TOPSIS）的TP预测效能，揭示全流域与子流域尺度下降水主导的驱动特征及雨季浓度反常现象，提出大流域分区水质管理模式。

作者：朱宇 | 王金良

中国江西省农业大学国土资源与环境学院，南昌 330045

摘要

总磷（TP）对中国河流和湖泊生态系统的健康构成了严重威胁。因此，准确预测TP并分析其驱动机制对于水质管理至关重要，尤其是在大型流域中。由于大型流域的时空异质性较强，单一机器学习（ML）模型预测和单尺度分析存在相当大的局限性。迫切需要开发多模型集成学习和多尺度分析来支持分区水质管理。本研究以中国湿润地区的代表性大型流域——鄱阳湖流域作为研究区域，系统比较了13种单一ML模型，并评估了三种多模型集成方法：堆叠集成（STK）、贝叶斯模型平均（BMA）和基于TOPSIS的集成模型（TOPSIS）。使用SHAP算法对预测变量与TP之间的关系进行了多尺度分析。研究结果表明：（1）在单一ML模型中，集成树模型取得了最佳的总体预测性能；（2）STK的总体预测性能优于BMA、TOPSIS和单一ML模型，且泛化能力更强。STK在训练集上的R2、MAE、KGE和CCC值分别为0.7882、0.0477、0.8413和0.8822，在测试集上分别为0.7832、0.0479、0.8380和0.8843；（3）在整个流域尺度上，降水量是最重要的预测因子，但不同子流域中预测因子的相对重要性有所不同；（4）在大多数子流域中，雨季的TP浓度高于旱季，但饶河盆地呈现相反的趋势。本研究不仅为鄱阳湖流域的TP预测和分区水质管理提供了科学指导，还强调了在大型流域中应用多模型集成学习进行水质预测和实施分区水质管理的重要性，为未来大型流域的水质预测和管理研究奠定了科学基础。

引言

磷是生物生长所必需的营养物质。适量的磷浓度可以改善水生生物的生活环境。然而，过高的磷含量会引发水体富营养化，导致藻类大量繁殖，破坏生态平衡。总磷（TP）是评估水体富营养化程度的关键水质指标，因此合理控制和管理水生环境中的总磷至关重要。根据2024年中国生态环境状况公报，中国77.1%的湖泊水质低于III级；另有4.3%的湖泊水质低于V级，其中TP是导致水质超标的主要因素。作为自然边界，流域具有完整性、稳定性和易于识别的特点。湖泊水环境的管理应以流域为单位（Liu等人，2015；Wang等人，2016）。这需要收集和分析流域内的TP数据，并在此基础上制定综合管理措施，以减少进入河流的磷污染并防止湖泊中TP的积累。

大多数关于TP统计分析和预测的传统研究依赖于物理模型，如SWAT（Arnold等人，1993）、HSPF（Bicknell等人，2001）、MONERIS（Kowalkowski等人，2012）和SLAM（Mockler等人，2017）。这些传统模型能够描述TP传输过程中的物理机制，从而全面了解整个流域内的磷循环。然而，物理模型也存在一定的局限性。它们通常需要大量的数据和参数，这需要大量的人力、物力和财力资源。这一问题在大型流域中尤为突出。在大型流域中，数据的全面收集本身就已经非常具有挑战性。再加上显著的空间异质性，物理模型参数的不确定性也会大大增加。

机器学习（ML）模型有效解决了上述问题。现有研究表明，与传统模型相比，机器学习模型在处理大量非线性和非参数水质数据方面表现出更优的性能，具有较高的准确性和可靠性（Najah等人，2013；Kratzert等人，2019）。由于机器学习模型具有参数依赖性低、计算效率高和预测能力强的特点，已被广泛应用于水质预测研究。例如，对于单一ML模型，随机森林已被用于模拟太湖流域的水质分布（Wang等人，2021）；在比较多种单一ML模型时，支持向量回归、随机森林和偏最小二乘回归被用于预测阿比湖流域的水质指标（Wang等人，2017）。

尽管ML模型在水质预测方面具有显著优势，但由于其固有的结构特性，单一ML模型难以完全捕捉流域内复杂的水质非线性关系。多模型集成学习可以通过整合多个单一ML模型来克服这些局限性，提高预测性能并弥补单一ML模型的不足（Raftery等人，1997；Hoeting等人，1999；Wang等人，2025）。尽管现有研究已经验证了支持向量回归和多层感知器等模型在水质预测中的优越性（Singh等人，2011；Ahmed等人，2019），但仍存在一些研究空白，主要体现在以下两个方面：

首先，大多数现有研究仅选择了少数几种单一ML模型进行流域TP预测的比较，而没有全面涵盖各种类别的模型进行系统比较和筛选。这导致缺乏选择流域TP预测ML模型的严格依据。此外，尚未探索堆叠集成（STK）、贝叶斯模型平均（BMA）和基于TOPSIS的集成模型（TOPSIS）等多模型集成方法在流域TP预测中的有效性。

其次，缺乏对大型流域的多尺度分析限制了对TP驱动机制和有效水质管理的深入研究。现有结合ML模型进行大型流域水质预测的研究大多从整个流域的单一尺度角度分析影响因素（Liu等人，2024；Zhao等人，2025）。然而，大型流域具有强烈的空间异质性，对整个流域进行单尺度分析在水质管理方面存在明显局限性。因此，多尺度分析对于实现目标性的分区水质管理至关重要。

本研究以鄱阳湖流域作为研究对象，该流域是中国湿润地区的代表性大型流域（Ye等人，2013）。随着流域内的社会经济发展，TP污染日益严重（Yang等人，2021）。多条支流的汇流也导致TP浓度持续升高，从而加剧了鄱阳湖的TP污染。2018年，鄱阳湖的平均TP浓度达到0.089 mg/L，低于III级地表水标准。随着水质处理技术的不断改进和相关政策的优先实施，TP污染控制取得了一定的成效。然而，根据江西省生态环境状况公报（2020–2024年），TP仍然是鄱阳湖的主要污染物。江西省2020–2023年的TP监测数据显示，虽然67.67%的监测结果符合II级水质标准，但仍有22.06%的监测结果处于III级或更低水平。2024年的省级公报显示，鄱阳湖所有18个评估段的TP浓度均为III级或IV级，其中61.1%为IV级。

综上所述，本研究以鄱阳湖流域为研究对象，系统比较了各种类型的单一ML模型和多种多模型集成方法，确定了适用于大型流域TP预测的最佳集成模型。此外，采用SHAP（SHapley Additive Explanations）算法揭示了整个流域及不同子流域内预测变量与TP之间的关系。本研究不仅为鄱阳湖流域的TP预测和分区水质管理提供了科学指导，还强调了在大型流域中应用多模型集成学习进行水质预测和实施分区水质管理的重要性，为未来大型流域的水质预测和管理研究奠定了科学基础。

研究区域

鄱阳湖流域位于长江流域的中部，地理坐标为北纬24°29′–30°04′，东经113°34′–118°28′（图1）。该流域总面积为162,225平方公里，分为8个子流域：饶河盆地（RRB）、新江盆地（XJRB）、秀水盆地（XSRB）、鄱阳湖周边区域（PLCA）、抚河盆地（FRB）以及赣江流域的三个河段，即上游河段（GRBA）、中游河段（GRBB）

单一机器学习模型的性能

图3显示了在最佳超参数组合下，各ML模型在训练集和测试集上的性能。可以看出，LGB模型在所有评估指标中均表现最佳，其训练集R2为0.7828，测试集R2为0.6506。除测试集的KGE指标外，LGB在所有评估指标上的表现均优于其他单一ML模型。其次表现较好的模型有CB（训练集R2=0.7706，测试集R2=0.6434）、XGB（训练集R2=0.7419，测试集R2=0.6487）等

多模型集成模型的有效性

与传统模型相比，机器学习模型在处理大量非线性和非参数水质数据方面表现出更优的性能，具有更高的准确性和可靠性，因此被广泛应用于水质预测研究（Najah等人，2013；Kratzert等人，2019）。然而，大多数以往的水质预测研究（如Wang等人，2017；Wang等人，2021）仅使用了少量的单一ML模型进行水质预测

结论

本研究首次系统评估了13种代表性单一ML模型在大型流域TP预测中的性能。结果表明，以LGB、CB、XGB和RF为代表的集成树模型在所有单一ML模型中取得了最佳的总体预测性能。这一发现为后续流域TP预测研究中选择单一ML模型提供了科学依据。此外，研究还发现

作者贡献声明

朱宇：撰写 – 审稿与编辑、撰写 – 原稿撰写、可视化、验证、软件使用、资源获取、方法论设计、调查实施、数据分析、概念构建。王金良：撰写 – 审稿与编辑、项目监督、资金筹措。

利益冲突声明

作者声明他们没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

致谢

本研究得到了国家自然科学基金（编号：42207416）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

研究区域

研究区域

单一机器学习模型的性能

多模型集成模型的有效性

结论

作者贡献声明

利益冲突声明

致谢

热点排行