一种基于机器学习的软传感器,用于监测污水处理厂中磷酸盐(PPCPs)的去除情况

《Journal of Environmental Chemical Engineering》:A Machine Learning-Based Soft Sensor for Monitoring PPCPs Removal in Wastewater Treatment Plants

【字体: 时间:2026年03月28日 来源:Journal of Environmental Chemical Engineering 7.2

编辑推荐:

  PPCPs在污水处理中的去除效率预测采用机器学习框架,结合分类和回归分析,SVM和SVR表现最佳,关键参数包括温度、氨氮浓度及MLSS,SHAP分析揭示了生物降解和吸附机制的影响。

  
林刚|李吉|沈志章
江南大学环境与生态学院,中国江苏省无锡市蠡湖大道1800号,214122

摘要

药物和个人护理产品(PPCPs)排放到水体中会带来生态和生物风险,因此需要在污水处理厂(WWTPs)中采用有效的监测方法。为了解决这一挑战,我们提出了一个基于机器学习的软传感器框架,仅使用常规的水质和运行数据来预测三种代表性PPCPs——磺胺甲噁唑、双氯芬酸和卡马西平——的去除效率。我们在一个涵盖不同地理区域和处理过程的综合数据集上评估了七种模型。支持向量机(SVM)和XGBoost在分类任务中表现优异(SVM对SMX的准确率为81.3%;XGBoost对CBZ的准确率为93.3%,对DF的准确率为74.2%),而支持向量回归(SVR)在回归任务中表现最佳(R2值分别为SMX的0.731、DF的0.710和CBZ的0.533)。此外,SHAP分析通过识别与生物降解和吸附相关的关键特征(包括温度、氨浓度和MLSS)提高了模型的可解释性。该分析还进一步强调了出水TP浓度(DF分类和回归)和工艺类型(SMX回归)是关键因素。本研究证明了结合分类-回归框架监测PPCPs去除的可行性,提供了一种数据驱动的方法来优先考虑关键监测因素,并为全规模WWTPs的决策提供成本效益。

引言

药物和个人护理产品(PPCPs)是一类令人担忧的新兴污染物,它们通过多种途径进入水环境,包括生活污水、农业径流和工业废水。这些化合物在水体中经常以微量浓度被检测到[1],通常范围从微克/升(μg/L)到纳克/升(ng/L)[2],引发了对其潜在生态和人类健康风险的担忧。尽管污水处理厂(WWTPs)是防止污染物排放到水体中的关键屏障,但大多数污水处理厂并未设计为能够完全去除PPCPs。更复杂的是,PPCPs在污水处理过程中可能会发生生物或非生物转化,产生毒性更高的中间产物[3]。这些持久性和衍生的污染物即使在低浓度下也可能对非目标生物构成潜在的长期风险。鉴于这些挑战,迫切需要开发实时监测系统来追踪它们的浓度。
虽然污水处理厂越来越多地将PPCPs的去除效率作为关键性能指标,但目前的浓度测量方法主要依赖于高精度的分析技术,如液相色谱-质谱(LC-MS)和气相色谱-质谱(GC-MS)[4]。尽管这些方法具有高灵敏度和准确性,但它们成本高昂、劳动密集且耗时,不适用于PPCPs的实时监测和动态评估。相比之下,数据驱动的软传感技术已成为监测污水处理过程的有前景的方法。
最近的研究越来越多地采用机器学习(ML)方法来预测常规水质参数。例如,支持向量机(SVM)已被用于预测出水磷含量[5];随机森林(RF)被用于估算化学需氧量(COD)[6];极端梯度提升决策树(XGBoost)在预测总氮(TN)方面表现出有效性[7]。这些方法利用常规运行参数(如pH值、溶解氧(DO)和温度)来增强过程控制,同时减少了对昂贵实验分析的依赖[8]、[9]。在线测量数据的日益丰富以及深度学习技术的进步,促进了越来越复杂的模型的发展,用于预测污水处理厂中的进水及出水特性。当前最先进的方法通常采用混合架构,结合了长短期记忆(LSTM)和门控循环单元(GRU)与注意力机制[10],或图神经网络[10],或数据分解技术[11]。然而,大多数基于ML的软传感研究都集中在传统污染物上,而像PPCPs这样的新兴污染物仍大多被忽视。因此,ML在PPCPs监测和控制方面的潜在应用仍然很大程度上未得到探索。最近的进展展示了ML在评估PPCPs命运方面的潜力;然而,现有的框架主要集中在为筛选或风险分级设计的分类任务上,而不是连续预测。有一项研究使用分子描述符根据处理适宜性对PPCPs进行聚类,尽管这种方法主要依赖于内在的化学性质,忽略了操作条件的动态影响[12]。另一个模型纳入了操作因素(如HRT和温度),但仍然局限于二分类,限制了其对去除性能的精细评估[13]。此外,最近的一项工作提出了一个评估最终出水质量的框架,虽然评估了整体处理性能,但没有提供特定化合物的去除估计[14]。因此,尽管有这些重要贡献,仍然迫切需要基于回归的方法,能够整合进水/出水水质参数和操作参数来预测连续去除性能。
由于降解机制的复杂性、PPCPs性质的变异性以及数据稀缺性,开发用于预测PPCPs浓度或去除效率的机器学习模型面临重大挑战。PPCPs的去除路径在很大程度上取决于具体的处理过程和操作条件[15]、[16]。例如,传统的活性污泥(CAS)系统对不同PPCPs的有效性各不相同——像布洛芬和咖啡因这样的易生物降解化合物可以通过生物降解或吸附有效去除,而更持久的药物如卡马西平和双氯芬酸往往在这些系统中难以降解[17]。相比之下,先进的处理方法如膜生物反应器(MBR)和高级氧化过程通常能在更广泛的PPCPs范围内实现更高的去除效率[18]。此外,PPCPs包含广泛的化学结构和性质——如疏水性、电荷状态和抗降解性——这进一步复杂化了通用预测建模。一个关键障碍是高质量、具有代表性的数据稀缺,因为现有的数据集通常规模有限,且在不同的WWTP过程、操作条件和PPCPs化合物类别之间的覆盖不平衡。这些因素共同阻碍了开发用于污水处理系统中PPCPs命运预测的强大、通用机器学习模型。
在这项研究中,我们利用机器学习模型来解决两个预测任务:三种常见PPCPs的去除效率的分类和回归分析。我们的方法从从已发表文献中收集和整理数据开始,确保涵盖不同的地理区域、处理过程和操作参数。我们系统地评估了多种机器学习算法,优化超参数以确定每种PPCP和任务类型的最佳模型。由于数据集规模较小,传统机器学习模型更为适用;因此,本研究排除了更先进的深度学习模型。此外,我们采用Shapley加性解释(SHAP)分析来阐明影响预测准确性的最关键变量。这种可解释的机器学习方法提供了关于PPCPs降解途径的宝贵机制见解,同时揭示了影响污水处理操作性能的关键过程参数。

数据收集

进行了全面的文献搜索,以识别2005年至2025年间发表的相关研究,这些研究调查了PPCPs在WWTPs中的存在和去除情况。搜索使用了Web of Science和Google Scholar数据库。关键词包括目标污染物(如“PPCPs”、“新兴污染物”、“药物”、“个人护理产品”、“微污染物”)以及与处理过程相关的关键词(如“污水处理厂”等)

模型性能评估

图2展示了不同模型对三种PPCPs的分类性能比较。对于SMX,SVM模型实现了最高的分类准确率(81.3%),并在所有指标上表现最为平衡,精确度、召回率和F1分数均达到0.864。LightGBM、RF和KNN的准确率紧随其后(分别为78.1%),F1分数分别为0.844、0.851和0.837。值得注意的是,RF实现了最高的召回率(0.901),但

讨论

本研究系统地评估了机器学习模型在预测WWTPs中PPCPs去除效率方面的表现,并结合了SHAP分析来阐明关键预测因素。在分类任务中,SVM对SMX的准确率最高(81.3%),而XGBoost在DF(74.2%)和CBZ(93.3%)上的表现最佳,显示出捕捉非线性和交互效应的强大能力。在回归任务中,SVR在所有三种PPCPs上的表现均优于其他模型,R2值

结论

本研究证明了应用机器学习模型预测污水处理厂中代表性PPCPs去除效率的可行性。评估了分类和回归框架,基于SVM的分类器和SVR在化合物上的表现最为稳健。关键的操作水质参数,特别是温度、氮相关变量和工艺类型,被一致认为是有影响力的预测因素。

作者贡献声明

林刚:撰写 – 审稿与编辑,撰写 – 原稿,可视化,方法论,调查,正式分析,数据整理。沈志章:撰写 – 审稿与编辑,监督,方法论,资金获取,概念化。李吉:撰写 – 审稿与编辑,资源获取,方法论,概念化。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:沈志章报告称得到了江苏省社会发展重大科技示范项目的财务支持。如果有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了江苏省社会发展重大科技示范项目(项目编号BE2023687)的支持。我们感谢邱勇教授和李冰教授分享他们论文中的数据和细节。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号