《Chemometrics and Intelligent Laboratory Systems》:Addressing concept drift in wastewater treatment: a data-driven solution for predictive control and energy optimization
编辑推荐:
污水质量预测的软测量技术研究与模型优化 | 支持向量回归 | 聚多组回归 | 长短期记忆网络 | 数据增强 | 化工设备节能优化
宣一鹏|郑志|王浩|韩飞|王鹏|卢展雄|于中斌|司桥瑞
中国江苏省镇江市江苏大学流体机械工程技术研究中心,212013
摘要
人工智能通过软传感技术实现了快速废水质量监测,有效克服了传统处理方法的时效性限制。本研究评估了四种预测模型:支持向量回归(SVR)、多项式岭回归(PolyRidge)、多层感知器(MLP)和长短期记忆网络(LSTM)。研究建立了一个专门的数据集,该数据集结合了实验测量结果以及基于ASM1的模拟结果,其中包含了生物反应和多相流体的过程。数据预处理解决了由于变量变化和异常值导致的概念漂移问题,而数据增强策略则补充了有限的数据集。优化后的模型分别取得了0.7867(SVR)、0.7933(PolyRidge)、0.52(MLP)和0.56(LSTM)的平均决定系数。PolyRidge在仅6.37分钟的训练时间内展示了最高的预测准确性,其次是SVR(10.74分钟)。值得注意的是,MLP的曝气预测准确性随着增强策略的加强而显著提高(小噪声注入、k-NN和MICE R2分别为0.7346、0.7583和0.7802),最终达到0.9845。根据在贵州进行的现场测试和预测分析,在去除缺失和异常数据点后,所有模型对COD和TN的预测准确性都表现良好,其中SVR的整体表现最佳。这些发现突显了特定机器学习方法在高效准确预测废水质量方面的潜力。
引言
为了解决 sewer 网络建设的高投资成本以及传统集中式废水处理相关的运行和维护费用问题,人们开发了集成式废水处理设备(IWTE)。这种设备广泛应用于偏远地区和岛屿地区[1],其设计配置如图1所示。然而,IWTE 中进水流量和污染物浓度的实时波动可能导致生化反应的滞后,从而影响出水质量[2]。因此,有效检测污染物浓度有助于在高浓度污染物出现之前合理调整控制参数,从而保证系统的稳定运行[3]。此外,IWTE 中的曝气系统占总能耗的50%-70%,是主要的运行成本之一[4]。因此,合理调节曝气量有助于减少因过度曝气造成的能源浪费。
废水处理的主要目标是确保出水符合环境法规和标准,从而避免对自然生态系统和人类健康的潜在风险[5]。因此,必须在 IWTE 中监测和控制几个关键出水质量参数[6],包括化学需氧量(COD)、总氮(TN)、氨氮(NH??-N)和溶解氧(DO)。通常,这些参数通过离线实验室分析收集的样本或传感器监测来测量。传统的实验室方法需要昂贵的设备维护,并且高度依赖专业人员,同时也容易受到人为错误和设备故障的影响[7]。此外,像 COD 和 TN 这样的关键参数往往需要数小时甚至更长时间才能获得,导致显著的延迟,这阻碍了 IWTE 的实时监测和控制。为了解决这些问题,开发了软传感器技术。
软传感器是一种数据驱动的模型,可以间接估计难以测量的过程变量,在废水处理厂(WWTP)中得到了越来越多的应用[8]。这种虚拟传感技术利用容易测量的辅助变量来提供目标参数的实时估计,并已被用于故障诊断、数据检测和验证[9][10][11]。通过用预测模型替代或补充物理传感器,软传感器可以在直接测量成本高昂或不切实际的情况下实现在线监测[12][13][14]。在软传感器开发中,广泛探索了人工智能方法,包括机器学习和神经网络[15]。Manjeeta 等人[16]使用支持向量回归(SVR)模型成功预测了印度某 WWTP 中厌氧污泥的特定产甲烷活性(SMA)。Shaikh 等人[17]提出了一种混合 BOA-SVR 模型,成功预测了流化床生物反应器中市政废水的 COD 和氮化合物去除效率。Behrouz 等人[18]引入了一种基于 ANN 的链式建模优化方法,在波兰的实际应用中实现了6%的节能效果。Redouane 等人[19]提出了一种结合 ANN 和主成分分析的混合数据驱动方法,成功应用于摩洛哥的性能评估和预测。Yu 等人[20]开发了一种实时 ATP 监测设备,将出水 COD 的预测准确性提高了60%。Siddharth 等人[21]利用 WWTP 传感器的实时数据开发了一种基于 LSTM 的深度学习模型,实现了高精度的短期一氧化二氮排放预测。Zhou 等人[22]提出了一种基于 LSTM-MTOBE 融合算法的方法,用于出水生化需氧量(BOD)的区间预测,生成了更窄的预测区间。Li 等人[23]引入了一种基于多子系统协作的双向 LSTM 自适应软传感方法,实现了氨氮浓度的高精度预测。
实验成本高昂是收集用于训练和验证人工智能模型的废水质量参数数据的主要挑战[24]。通过将活性污泥模型 1(ASM1)根据实际 IWTE 条件进行仿真校准,可以生成补充数据,从而填补实验数据集中的空白[25,26]。通过用真实测量数据校准 ASM1 模型,可以以经济高效的方式生成高质量的数据集,同时不牺牲科学严谨性。这种方法有助于解决 AI 驱动的废水处理研究中的“数据稀缺”问题。除了机械仿真外,实际的数据增强策略还可以在监测有限和不完整的情况下进一步提高模型的鲁棒性。例如,可以使用 k-最近邻(k-NN)或基于链式方程的多重插补(MICE)来插补缺失或采样稀疏的变量,这些方法分别基于特征空间的相似性或迭代条件建模重建合理的值。这种基于插补的数据增强可以增加有效样本量,并减少由于非均匀采样造成的偏差,前提是必须跟踪和验证插补的不确定性并与实验室测量结果进行对比。然而,大多数现有的预测方法没有考虑与曝气过程相关的能耗。这种忽略通常会导致由于操作能耗的不确定性而造成能源浪费。此外,由于曝气流量与能耗密切相关,将其作为分类和预测的第四个特征可以减少曝气能耗,同时确保出水标准得到满足。
本研究采用了一种混合实验和仿真方法来构建关键废水处理参数的数据集。此外,还使用了机器学习(SVR 和 PolyRidge 模型)和神经网络(MLP 和 LSTM 模型)技术来训练和验证数据,以预测好氧池中通过好氧反应去除污染物的效率。为了降低集成式废水处理设施的总体能耗,进一步使用多种数据增强策略(带有小噪声扰动的进水/出水反演、k-最近邻(k-NN)和基于链式方程的多重插补(MICE)优化了表现最佳的 AI 模型,以预测最佳曝气率并确定合适的策略,从而在保持处理性能的同时减少能耗。最后,为了量化现场测量结果与模型预测之间的差异,在贵州部署了一台废水处理设备,进行了实际废水实验和污染物测量,并将结果与四个优化模型的输出进行了比较。
方法论
本研究通过实验测量并结合仿真获得了大量数据集,随后通过模型验证建立了关键废水处理参数的稳健数据集。选定的人工智能模型经过训练和测试,使用三个指标评估了最佳模型:平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)。如果预测性能不满意,模型将被
四种模型的预测测试
在本研究中,模型输入包括四个特征:处理时间和三个关键废水质量参数——COD、TN 和 NH??-N——在厌氧池出水处的浓度。使用四种模型架构(SVR、PolyRidge、MLP 和 LSTM)生成了好氧池出水处 COD、TN 和 NH??-N 浓度的预测结果。具体的模型架构和参数配置详见 SM 的第6节(见表1)。
模型测试结果如图4所示
优化模型测试和结果分析
在模型调整和后续训练/测试之后,图9展示了四种模型(SVR、PolyRidge、MLP 和 LSTM)的输出预测结果。预测性能通过 MAE、RMSE 和 R2 进行评估。为了使计算成本比较有意义,所有四种模型都在相同的数据集上进行了训练,并在相同的硬件/软件环境中执行。因此,我们报告了墙钟训练时间作为控制环境下的直接训练成本代理。
图9
结论
本研究评估了四种人工智能模型(SVR、PolyRidge、MLP 和 LSTM)在预测废水处理三维特征基础上关键出水参数方面的有效性,为优化集成式废水处理设备好氧池的参数提供了一个可靠的人工智能工具。
由实验测量和仿真数据构建的数据集中存在概念漂移问题,这对模型预测造成了显著挑战
CRediT 作者贡献声明
宣一鹏:撰写——原始草案、验证、资源管理、方法论、调查、数据分析、概念化。郑志:监督、项目管理、方法论、概念化。王浩:方法论、概念化。韩飞:撰写——审阅与编辑、验证、项目管理。王鹏:验证、资源管理。卢展雄:验证、数据管理。于中斌:验证、数据管理。司桥瑞:撰写——
资助
作者感谢 国家自然科学基金(项目编号:62576154)和 国家重点研发计划(2022YFC3204603)以及 江苏省的研究生研究与实践创新计划(KYCX24_4002)的财政支持。
利益冲突声明
作者声明他们没有已知的利益冲突或个人关系可能影响本文所述的工作。