一种基于簇的虚拟传感框架，用于利用可测量的水质变量估算总氮和总磷含量

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Contaminant Hydrology》：A cluster-based virtual sensing framework for estimating total nitrogen and total phosphorus using sensor-measurable water quality variables

【字体：大中小】 时间：2026年06月12日 来源：Journal of Contaminant Hydrology 4.4

编辑推荐：

　　康宇敏|南秀汉|权世允|金英道韩国永仁市明知大学土木与环境工程系 **摘要** 在大型河流流域中，由于水文和地貌条件、污染物来源分布以及停留时间的差异，水质响应表现出强烈的空间异质性，这种异质性限制了单一模型虚拟传感器方法的估算精度。特别是总氮（TN）和总磷（TP

　　康宇敏|南秀汉|权世允|金英道
韩国永仁市明知大学土木与环境工程系

**摘要**
在大型河流流域中，由于水文和地貌条件、污染物来源分布以及停留时间的差异，水质响应表现出强烈的空间异质性，这种异质性限制了单一模型虚拟传感器方法的估算精度。特别是总氮（TN）和总磷（TP）表现出非线性行为和特定地点的响应，这凸显了需要一个能够明确纳入空间结构的估算框架。本研究提出了一种基于聚类的虚拟传感器框架，该框架将大型河流流域划分为具有相似水质响应的空间簇，并为每个簇构建独立的机器学习虚拟传感器，以提高TN和TP浓度的估算精度。研究使用了2016年1月至2025年10月的水质监测网络（WQMN）数据。应用了层次聚类分析（HCA）、K均值（K-means）和高斯混合模型（GMM）进行聚类，并使用多变量水质变量进行了比较，然后将得到的空间簇结构纳入虚拟传感器估算阶段。为每个簇构建了随机森林（RF）、XGBoost（XGB）和多层感知器（MLP）回归模型，并通过验证进行了评估。在直接排除营养成分变量或仅使用基本传感器变量的受限输入条件下，基于聚类的方法显示出最明显的互补效果。与无簇框架相比，基于RF的主簇框架使TN的R2值提高了约0.045，TP的R2值提高了约0.029。这些结果表明，将空间聚类与基于机器学习的虚拟传感器相结合可以提高大型河流流域中营养素估算的空间精度和可解释性。

**引言**
近几十年来，快速的城市化和工业化不断增加了进入河流的主要营养物质（如氮（N）和磷（P）的负荷（1. Strokal等人，2021年）。这一趋势不仅局限于局部地区，而是在全球范围内普遍存在，是导致河流和湖泊水质退化及水生生态系统紊乱的主要因素（2. Mcdowell和Dodds，2025年；5. Liu等人，2024年）。据报道，进入生物圈的磷总量增加了大约四倍，给现有的磷酸盐储备带来了压力，并表明磷循环可能存在不平衡（3. Wang等人，2024年）。氮也与人类活动密切相关，包括化肥使用量的增加、城市废水排放和牲畜废物管理，它通过多种途径持续进入水生系统（4. Kim等人，2023年）。此外，营养物质的输入可能在时间上有所延迟，难以早期检测到，这往往导致污染发生后才采取管理措施。氮和磷是调节水生生态系统生产力的关键限制性营养物质（35. Zhao等人，2023年）。当人为输入增加了溶解无机营养物质（如硝酸盐（NO3?）和磷酸盐（PO43?）的浓度时，生态系统的响应可能会呈非线性放大（8. Zhang等人，2025a）。这些营养物质不仅来自非点源（如农业化肥径流和土壤侵蚀），还来自点源（包括生活污水和工业废水）（9. Naderian等人，2025年；10. Wang等人，2024年）。特别是由降雨驱动的地表径流和地下水渗漏加速了氮和磷向河流的输送，增加了水生系统中的浓度波动（11. Tilahun等人，2024年）。这些过程加剧了富营养化，可能引发连锁负面效应，包括藻类繁殖、溶解氧耗尽和水质恶化（12. Liu等人，2024年；13. Determan等人，2021年）。从长远来看，它们还可能改变水生生态系统结构，降低饮用水处理效率，并降低水资源使用的可靠性（14. Amorim和Moura，2021年）。

为了缓解这些问题，量化营养物质来源、有效管理点源和非点源污染源以及系统加强水质监测和评估系统至关重要（16. Oates等人，2025年；15. Cai等人，2025年）。然而，河流在其流域内整合了水文和物质循环过程，在同时存在多个污染源的环境中，持续监测所有水质成分在实践中是有限的（17. Sutadian等人，2016年）。河流系统不仅在年度和季节尺度上动态变化，在亚日时间尺度上也存在变化。尽管如此，许多监测站仍然依赖于时间分辨率相对较低的观测数据（26. Rode等人，2025年）。例如，在韩国，水质监测通常每年每个监测站仅进行4-12次采样。增加采样频率可以提高观测的精度和准确性，但这也会涉及成本权衡（28. Skeffington等人，2015年）。总氮（TN）和总磷（TP）特别难以高频监测，因为标准测量方法耗时较长（20. Zhang等人，2025b），且基于实验室的分析涉及高昂的成本、专业人员和分析延迟（34. Namugize和Jewitt，2018年）。这样的测量系统不适合捕捉短期水质变化。例如，Cassidy和Jordan（2011年）报告称，需要每小时或接近连续的监测来捕捉小型农业溪流中TP浓度的较大时间变化（67. Villa，2019年）。这些测量限制不仅限于TN和TP。最近对全球水质监测能力的分析表明，在一些国家，即使是对测量相对容易的变量（如pH值和溶解氧（DO，mg/L）在空间和时间上的观测也不充分（22. Kirschke等人，2020年）。这表明，即使在有制度框架的情况下，人员、资金和技术的限制也可能阻碍水质监测在测量和分析阶段的有效实施。

由于间歇性采样造成的数据缺口限制了对短期水质波动和污染事件的主动响应（33. IISD 2023年，“实时水质监测”报告）。因此，越来越需要高频的基于现场传感器的监测系统来补充低频的以实验室为中心的测量。为了解决这些限制，越来越多地采用了使用现场传感器的高频水质监测技术（25. Murphy等人，2015年）。现场传感器提供快速稳定的环境监测（63. O'Grady等人，2021年），可以连续观测传统低频监测难以捕捉的亚日变化，从而提高对水质动态的理解（65. McGrane等人，2017年）。然而，像TN和TP这样的关键营养物质仍然难以使用物理传感器直接测量（21. Wang等人，2013年）。作为替代方案，使用物理化学变量和历史观测数据来估算难以测量的水质变量的虚拟传感器方法受到了越来越多的关注（23. Paepae等人，2023年）。当与基于物联网的自动收集和传输系统结合使用时，这些方法可以帮助克服手动监测的空间和时间限制（39. Kwon等人，2025年）。在本研究中，虚拟传感器是指一种间接测量系统，它使用在现场相对容易测量的水质变量作为替代指标，通过数据驱动模型来估算高成本、低频的分析变量（24. Martin等人，2021年）。可以使用pH值、浊度（NTU）、电导率（EC）和水温（WT）等物理化学变量来估算难以直接测量的营养物质浓度（如TN和TP）（38. Paepae等人，2022年）。基于虚拟传感器的水质估算的概念结构如图1所示。

以往的虚拟传感器研究通常使用机器学习方法，如RF、集成树、支持向量回归和XGB（41. Arhab和Huang，2023年）。由于水质数据反映了季节性、水文条件和人为影响的相互作用，基于人工神经网络的模型（特别是MLP）也被用作水质预测的补充方法，因为它们可以学习复杂的非线性关系（37. Zhang等人，2022年）。由于基于神经网络的模型可能具有有限的可解释性，因此使用了可解释的人工智能方法（如SHapley Additive Explanations（SHAP）来量化输入变量对模型预测的全球和局部贡献（46. Aldrees等人，2024年）。基于虚拟传感器的水质预测已在多项研究中进行了研究。42. Ha等人（2023年）使用高频水质替代指标预测了越南Tri An水库的TN和TP浓度，并比较了几种机器学习方法的性能。43. Shen等人（2020年）整合了美国62,000多个监测站的数据，使用随机森林模型预测营养物质浓度，并生成了1公里分辨率的空间分布图。此外，44. Harrison等人（2021年）使用高频自动化传感器数据和随机森林回归再现了单个流域内营养物质浓度的短期变化，45. Tran等人（2022年）通过区分多瑙河的上游和下游监测站点分析了高频营养物质动态。然而，许多以往的研究依赖于整合大型空间数据集的单一模型，或者仅关注有限的监测站点和算法。河流中的空间异质性不仅仅是建模挑战；它源于水文和生物地球化学因素，如流量制度、降雨径流响应、稀释和停留时间、点源和非点源输入、侵蚀和颗粒物传输。这种异质性可能通过迫使单一虚拟传感器模型依赖于平均相关性而降低异质河流系统的泛化性能，有限的采样使得难以捕捉瞬时水质波动（40. Huang等人，2022年）。因此，应首先识别空间水质制度，并评估适用于每种制度的估算关系。

本研究提出了一个结合基于传感器的输入变量聚类和机器学习回归模型的TN和TP浓度估算框架。使用长期WQMN数据，分别为汉江子流域（HRB）、南汉江子流域（NRB）和 Bukhan 江子流域（BRB）定义了空间簇，并共同评估了独立于簇的估算模型、直接包含营养成分变量的敏感性以及基于SHAP的解释能力。通过这种方法，我们评估了基于簇的建模是否可以提高估算性能，并有助于解释由于TN和TP的不同水文、颗粒物和溶解行为导致的估算结构差异。

**主要贡献**
首先，开发了一种基于簇的虚拟传感器框架，使用长期WQMN数据和可能与基于传感器的或自动化监测系统相关的水质变量来估算大型河流流域中的TN和TP浓度。其次，对汉江子流域、南汉江子流域和Bukhan江子流域进行了特定于流域的聚类和逐簇模型评估，以评估空间水质制度的差异如何影响估算性能和误差结构。第三，比较了包含直接营养成分变量的全输入条件与排除成分和基本传感器输入条件，并使用基于SHAP的解释来区分由组成关系解释的高性能部分和基于一般水质变量的估算潜力。

**研究区域和水质数据**
本研究在韩国代表性的大型河流流域之一——汉江流域进行。研究流域包括汉江主干流以及南汉江和Bukhan江系统（81. Yu等人，2018年），涵盖了上游、中游和下游的不同水文条件和土地利用特征。汉江流域是向首尔约2600万居民供应饮用水的关键水资源。

**特定于流域的聚类结果和最佳簇数选择**
使用K均值（K-means）、HCA-Ward和GMM对HRB、NRB和BRB进行了空间聚类。簇数从K=2逐步增加到8，并计算了每个簇结构的SH、CH、DB和CS。经过环境标准信息的质量控制和稳健异常值处理后，HCA-Ward K=2的解决方案将82个HRB站点分为两个簇，分别有34个和48个站点；103个NRB站点分为两个簇，分别有93个和10个站点；34个BRB站点分为两个簇，分别有7个和...

**特定于流域的水质结构与估算关系之间的一致性**
特定于流域的水质浓度结构（图5）、估算性能（图6、图7、图8）、交叉验证结果（图9）以及基于SHAP的变量贡献结构（图10、图11）显示出一致的模式。这表明基于簇的方法可以作为分析框架，用于比较由于直接包含成分变量和受限输入条件引起的估算结构变化。

**结论**
本研究开发了一种基于簇的估算框架，反映了HRB、NRB和BRB的特定于流域的水质异质性，并评估了TN和TP的估算性能和估算关系。1. 基于簇的分区显示了TN估算的高稳定性和解释能力。大多数子流域和群组的R2值均高于0.90，表明氮化合物（如NO3-N和NH3-N）与物理化学水质变量之间存在显著的结构关联。

作者贡献声明：
康宇敏：撰写初稿、数据可视化、软件开发、方法论设计、数据整理及概念构建。
南苏汉：软件开发、方法论设计、数据分析、正式分析。
权思允：方法论设计、数据分析、正式分析及概念构建。
金英道：数据可视化、软件开发、正式分析、数据整理及概念构建。

未引用的参考文献：
?, H. C, 2008
Africa, 2018
Chen et al., 2022
Esther et al., 2023
Eyto and Version, 2022
Leigh et al., 2026
Liu et al., 2025
Minji et al., 2019
Monitoring, 2023
Report, 2023
Rozemeijer et al., 2025
Using and Learning, 2022
Wang et al., 2025
Zhang et al., 2025

利益冲突声明：
无。

联系信箱：

粤ICP备09063491号

热点排行