磷是生物生长所必需的营养物质。适量的磷浓度可以改善水生生物的生活环境。然而,过高的磷含量会引发水体富营养化,导致藻类大量繁殖,破坏生态平衡。总磷(TP)是评估水体富营养化程度的关键水质指标,因此合理控制和管理水生环境中的总磷至关重要。根据2024年中国生态环境状况公报,中国77.1%的湖泊水质低于III级;另有4.3%的湖泊水质低于V级,其中TP是导致水质超标的主要因素。作为自然边界,流域具有完整性、稳定性和易于识别的特点。湖泊水环境的管理应以流域为单位(Liu等人,2015;Wang等人,2016)。这需要收集和分析流域内的TP数据,并在此基础上制定综合管理措施,以减少进入河流的磷污染并防止湖泊中TP的积累。
大多数关于TP统计分析和预测的传统研究依赖于物理模型,如SWAT(Arnold等人,1993)、HSPF(Bicknell等人,2001)、MONERIS(Kowalkowski等人,2012)和SLAM(Mockler等人,2017)。这些传统模型能够描述TP传输过程中的物理机制,从而全面了解整个流域内的磷循环。然而,物理模型也存在一定的局限性。它们通常需要大量的数据和参数,这需要大量的人力、物力和财力资源。这一问题在大型流域中尤为突出。在大型流域中,数据的全面收集本身就已经非常具有挑战性。再加上显著的空间异质性,物理模型参数的不确定性也会大大增加。
机器学习(ML)模型有效解决了上述问题。现有研究表明,与传统模型相比,机器学习模型在处理大量非线性和非参数水质数据方面表现出更优的性能,具有较高的准确性和可靠性(Najah等人,2013;Kratzert等人,2019)。由于机器学习模型具有参数依赖性低、计算效率高和预测能力强的特点,已被广泛应用于水质预测研究。例如,对于单一ML模型,随机森林已被用于模拟太湖流域的水质分布(Wang等人,2021);在比较多种单一ML模型时,支持向量回归、随机森林和偏最小二乘回归被用于预测阿比湖流域的水质指标(Wang等人,2017)。
尽管ML模型在水质预测方面具有显著优势,但由于其固有的结构特性,单一ML模型难以完全捕捉流域内复杂的水质非线性关系。多模型集成学习可以通过整合多个单一ML模型来克服这些局限性,提高预测性能并弥补单一ML模型的不足(Raftery等人,1997;Hoeting等人,1999;Wang等人,2025)。尽管现有研究已经验证了支持向量回归和多层感知器等模型在水质预测中的优越性(Singh等人,2011;Ahmed等人,2019),但仍存在一些研究空白,主要体现在以下两个方面:
首先,大多数现有研究仅选择了少数几种单一ML模型进行流域TP预测的比较,而没有全面涵盖各种类别的模型进行系统比较和筛选。这导致缺乏选择流域TP预测ML模型的严格依据。此外,尚未探索堆叠集成(STK)、贝叶斯模型平均(BMA)和基于TOPSIS的集成模型(TOPSIS)等多模型集成方法在流域TP预测中的有效性。
其次,缺乏对大型流域的多尺度分析限制了对TP驱动机制和有效水质管理的深入研究。现有结合ML模型进行大型流域水质预测的研究大多从整个流域的单一尺度角度分析影响因素(Liu等人,2024;Zhao等人,2025)。然而,大型流域具有强烈的空间异质性,对整个流域进行单尺度分析在水质管理方面存在明显局限性。因此,多尺度分析对于实现目标性的分区水质管理至关重要。
本研究以鄱阳湖流域作为研究对象,该流域是中国湿润地区的代表性大型流域(Ye等人,2013)。随着流域内的社会经济发展,TP污染日益严重(Yang等人,2021)。多条支流的汇流也导致TP浓度持续升高,从而加剧了鄱阳湖的TP污染。2018年,鄱阳湖的平均TP浓度达到0.089 mg/L,低于III级地表水标准。随着水质处理技术的不断改进和相关政策的优先实施,TP污染控制取得了一定的成效。然而,根据江西省生态环境状况公报(2020–2024年),TP仍然是鄱阳湖的主要污染物。江西省2020–2023年的TP监测数据显示,虽然67.67%的监测结果符合II级水质标准,但仍有22.06%的监测结果处于III级或更低水平。2024年的省级公报显示,鄱阳湖所有18个评估段的TP浓度均为III级或IV级,其中61.1%为IV级。
综上所述,本研究以鄱阳湖流域为研究对象,系统比较了各种类型的单一ML模型和多种多模型集成方法,确定了适用于大型流域TP预测的最佳集成模型。此外,采用SHAP(SHapley Additive Explanations)算法揭示了整个流域及不同子流域内预测变量与TP之间的关系。本研究不仅为鄱阳湖流域的TP预测和分区水质管理提供了科学指导,还强调了在大型流域中应用多模型集成学习进行水质预测和实施分区水质管理的重要性,为未来大型流域的水质预测和管理研究奠定了科学基础。