《Journal of Water Process Engineering》:Detecting water contaminants using an electrochemical sensor based on improved Transformer Encoder with Genetic Algorithm
编辑推荐:
检测水中污染物对缓解环境与健康问题至关重要。传统方法成本高且耗时,本研究提出基于电化学传感器数据、改进Transformer编码器与遗传算法优化的TE-GA框架,通过TOPSIS分析平衡准确率与计算时间。实验显示TE-GA在99.17%准确率下耗时减少57%,优于网格搜索、粒子群优化等其他方法。
Rizqy Ahsana Putri | Riyanarto Sarno | Wahyu Prasetyo Utomo | Fadlilatul Taufany | Dwi Sunaryono | Shoffi Izza Sabilla | Sang-Seok Lee | Kelly Rossa Sungkono | Taufiq Choirul Amri | Ruri Agung Wahyuono | Rini Handayani | Mohammad Almas Prakasa
印度尼西亚苏拉巴亚10月11日技术学院信息学系,60111
摘要
检测水中的污染物对于缓解环境和健康问题至关重要。目前,传统的检测方法成本高昂且耗时较长。因此,需要开发一种成本低廉、快速且基于人工智能的替代方案。本文提出了一种新颖的集成系统框架,利用改进的Transformer Encoder(通过遗传算法优化,简称TE-GA)从电化学传感器数据中检测水中的污染物。电化学传感器用于捕捉水污染物样本的伏安信号,然后Transformer Encoder处理这些信号以识别污染物特征。遗传算法(GA)被用来优化Transformer Encoder的超参数。此外,本研究还比较了GA与其他优化方法(包括网格搜索、随机搜索、粒子群优化、贝叶斯优化和树结构Parzen估计器)在提升Transformer Encoder性能方面的效果。结果表明,TE-GA在965.78秒内完成了优化过程,准确率达到99.17%,比其他计算密集型方法节省了高达57%的时间。
引言
重金属污染,尤其是铅和镉,对环境和健康构成重大风险,因此需要有效的监测[1]。标准的分析技术,如原子吸收光谱法(AAS)和电感耦合等离子体质谱法(ICP-MS),仍然是检测重金属的主要方法[2]。然而,这些方法存在高运营成本(每次测试约33美元)、处理时间长(最长可达7天)以及需要专业操作人员等限制[3][4][5][6]。因此,基于传感器的方法作为一种有前景的替代方案日益受到重视,它们比传统方法更快、更经济、更易于非专业人员使用[7][8]。在各种传感技术中,电化学传感器在重金属检测方面展现出巨大潜力。
电化学传感器是一种将化学信息转换为电信号的设备,用于分析目的。在电化学传感器中,输入样本中的离子与工作电极表面发生反应[9]。当施加电势时,这些离子在电极界面参与氧化或还原反应。该过程通过伏安技术控制,系统地改变电势以分析离子的氧化还原行为。输出结果为伏安图,即电流随电势变化的连续信号[10]。这种信号包含可用于识别水样中各种重金属的复杂模式[11]。然而,解释伏安图等复杂信号非常困难,需要专业知识[12]。为简化解释过程,人工智能(AI)技术,包括机器学习(ML)和深度学习(DL),已被应用于伏安图数据的重金属检测[13][14]。
目前有多种方法用于解释伏安图。ML被用于支持伏安图的解释,特别是在分类水污染物类型方面[13][15],而DL则用于更高级的分析方法[14][16][17]。这些发展为本文采用Transformer Encoder提供了初步动机,Transformer Encoder能够捕捉数据集中多个特征之间的复杂关系和相互作用,从而支持有效的分类[18]。尽管具有优势,但Transformer Encoder仍需调整多个超参数以达到最佳性能。
目前,超参数的选择通常通过试错或应用网格搜索等传统优化方法手动完成[13]。这些方法耗时且计算成本高,而像遗传算法(GA)这样的元启发式算法则通过进化搜索有效探索超参数空间[19]。GA使模型能够通过高效的进化搜索接近最优配置[20]。
此外,还需要对几种超参数优化方法进行比较评估,以验证GA在准确性和执行时间方面的优越性。高精度模型可能需要更长的计算时间[21][22],这使得选择在准确性和执行时间之间取得最佳平衡的模型变得具有挑战性。这种情况凸显了需要一种系统的多标准决策(MCDM)方法,例如基于与理想解相似性的排序技术(TOPSIS)。
根据现有文献,发现了三个关键的研究空白。首先,在传感器-模型集成方面,缺乏有效结合低成本电化学传感器与自动化ML/DL解释的综合性框架。现有研究往往侧重于传感器开发,同时依赖手动数据分析。其次,在数据可用性方面,缺乏基于伏安图的污染物检测数据集,阻碍了可靠检测模型的开发和验证。第三,在模型优化和权衡方面,尽管Transformer Encoder在捕捉复杂特征相互作用方面表现出色,但其性能高度依赖于超参数配置。此外,现有研究通常仅关注最大化精度,忽略了与计算时间的权衡,而这对于快速部署至关重要。为解决这三个问题,本研究提出以下贡献:
- 提出一种集成系统框架,利用电化学传感器、ML/DL模型、超参数优化技术和MCDM分析来检测水中的污染物。
- 获取并利用包含三种不同类别原始伏安图的数据集:铅(Pb)和镉(Cd)在50–250 ppm范围内,以及非重金属基线[23]。
- 提出一种改进的Transformer Encoder架构(TE-GA),其中Transformer Encoder用于污染物分类,GA用于超参数优化。然后使用TOPSIS进行优化,以实现基于模型精度和执行时间的平衡选择。
本文结构如下:第2节回顾了电化学传感器在水监测方面的相关研究,以及ML/DL模型在伏安图分析中的应用。第3节介绍了所提出的方法,包括数据采集、数据预处理、TE-GA的开发、模型评估和使用TOPSIS的模型排名。第4节展示了结果,比较了不同的分类器,并讨论了优化和TOPSIS的结果。第5节总结了主要发现并提出了未来研究的方向。
相关研究
相关工作
本节回顾了电化学水监测传感器的相关研究、ML/DL模型在伏安图处理中的应用,以及Transformer Encoder架构和GA在各个领域的研究。此外,还讨论了结合决策方法进行模型评估的研究。
提出的方法
本节详细介绍了基于TE-GA方法检测水污染物的框架。该方法从数据采集开始,接着进行数据预处理以准备伏安信号进行分析。然后开发Transformer Encoder,并通过GA进一步改进其预测性能。随后使用多种性能指标评估模型,并使用TOPSIS方法对模型进行排名。
结果与讨论
本节展示了使用各种分类方法获得的分类结果。此外,还讨论了对最佳性能模型应用超参数优化的结果,并详细解释了TOPSIS分析的结果。
结论
本研究证明了ML/DL模型在分类水污染物伏安图方面的有效性。在评估的模型中,Transformer Encoder由于能够捕捉复杂的特征相互作用而实现了最高的分类精度,其次是DNN,而SVM的表现最差。针对Transformer Encoder模型的超参数优化表明,所提出的TE-GA是最有效的方法,实现了高精度。
CRediT作者贡献声明
Rizqy Ahsana Putri:撰写——原始草稿、验证、方法论、概念化。
Riyanarto Sarno:撰写——审阅与编辑、监督、概念化。
Wahyu Prasetyo Utomo:验证、监督、形式分析。
Fadlilatul Taufany:撰写——审阅与编辑、验证、方法论。
Dwi Sunaryono:验证、方法论、资金获取。
Shoffi Izza Sabilla:撰写——审阅与编辑、方法论。
Sang-Seok Lee:撰写——审阅与编辑、监督。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文的研究工作。
致谢
本研究得到了印度尼西亚高等教育、研究和技术总局(Penelitian Pendidikan Magister menuju Doktor untuk Sarjana Unggul (PMDSU)项目(合同编号:038/E5/PG.02.00.PL/2024和1801/PKS/ITS/2024)以及印度尼西亚教育科学和技术部的印度尼西亚教育捐赠基金(LPDP)的支持(代表机构:EQUITY项目,合同编号:4299/B3/DT.03.08/2025和3029/PKS/ITS/2025)的资助。