《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:CARS-SPA optimized UV–Vis spectroscopy for rapid and robust COD prediction in water samples
编辑推荐:
郑培超|袁倩宇|王金梅|李成林|曹耀阳|孟一然|陈金辉|杜全友|阮伟|何浩楠中国重庆市光电信息传感与传输技术重点实验室,重庆400065摘要紫外-可见光(UV–Vis)吸收光谱技术因其无损、快速且无污染的特性而被广泛应用于水质监测。然而,高维光谱数据常常受到系统噪声和悬浮固体散射
郑培超|袁倩宇|王金梅|李成林|曹耀阳|孟一然|陈金辉|杜全友|阮伟|何浩楠
中国重庆市光电信息传感与传输技术重点实验室,重庆400065
摘要
紫外-可见光(UV–Vis)吸收光谱技术因其无损、快速且无污染的特性而被广泛应用于水质监测。然而,高维光谱数据常常受到系统噪声和悬浮固体散射的影响,这会降低化学需氧量(COD)预测模型的准确性和稳健性。为了解决这个问题,本研究提出了一种混合特征波长选择方法——竞争自适应重采样结合连续投影算法(CARS-SPA),该方法通过两阶段筛选有效去除冗余和不相关的变量。使用经过Savitzky–Golay平滑预处理的实际水样光谱,CARS-SPA-LSSVM模型的性能显著优于全光谱和单一算法方法:在验证集上,其均方根误差(RMSE)分别比全光谱、CARS和SPA降低了28.31%、15.68%和14.91%,决定系数(R2)达到0.9588。通过使用Dung Beetle优化器(DBO)进一步优化LSSVM超参数,RMSE降低到0.1525?mg·L?1,R2达到0.9664。结果表明,所提出的CARS-SPA-DBO-LSSVM框架在保持最小特征维度的同时,实现了高预测准确性和稳健性,为实际水质应用中的快速可靠COD监测提供了有前景的解决方案。
引言
随着现代工业化的加速,废水问题引发了多方面的生态挑战[1]。由于有机化合物的异质性和结构复杂性,监测有机污染已成为水环境监测的关键焦点。化学需氧量(COD)作为水有机污染水平的定量指标,是水质评估的重要参数[2]。当前的COD测定方法分为化学分析和物理检测技术。尽管包括电化学[3]、高锰酸钾滴定[4]和分光光度[5]方法在内的化学方法因其操作可重复性和准确性而广受认可,但这些传统方法通常需要较长的分析周期,成本较高,并且存在二次污染的风险,从而限制了它们在实时COD监测中的应用[6]。相比之下,物理方法,特别是UV–Vis吸收光谱技术近年来受到了广泛关注,因为它们操作快速、环境兼容性强且能够实现实时监测,具有很大的实际应用潜力。
在实际的水质检测场景中,光谱数据会受到随机噪声和高维特性的影响,这会显著影响分析结果。虽然S-G滤波可以通过光谱平滑来减轻噪声干扰,但仍然存在包括悬浮颗粒散射效应和光谱冗余在内的持续挑战,因此需要精确的特征波长选择来准确表征光谱特征。本研究使用S-G预处理的数据来研究最佳波长识别策略。Kanu等人[8]展示了PCA在光谱降维方面的应用,有效分离了与地下水污染相关的波长。Zhang等人[9]开发了一种结合UV–可见光成像的加权掩蔽框架,在低信噪比条件下增强了光谱稳定性。同样,Chen等人[10]建立了一个深度自动时间卷积网络,能够通过空间特征提取解决光谱散射问题。
尽管竞争自适应重采样(CARS)可以有效去除冗余变量,连续投影算法(SPA)可以缓解多重共线性,但单独使用这两种方法仍存在局限性:CARS容易受到迭代终止标准的影响,可能导致潜在重要波长的遗漏;而SPA在直接应用于高维原始光谱时容易陷入局部最优解。为了解决这个问题,本文提出了一种两阶段特征选择策略,首先使用CARS粗略筛选贡献较大的波长,然后使用SPA从筛选出的候选波长中进一步选择低多重共线性的子集,从而平衡选择效率和信息完整性。
此外,最小二乘支持向量机(LSSVM)模型的性能高度依赖于超参数(如gamma和sigma)的正确配置。传统的网格搜索或手动参数调整既耗时又容易得到次优解。近年来,群体智能优化算法因其强大的全局搜索能力和快速收敛性而被广泛用于超参数优化。Dung Beetle优化器(DBO)是由Xue等人[11]于2022年提出的一种新型群体智能算法,其灵感来源于蜣螂的滚球、跳舞、觅食和繁殖行为[12]、[13]。该算法特别强调全局探索和局部利用的平衡,从而实现了快速收敛和高精度。因此,本研究采用DBO自动优化LSSVM的超参数,以进一步提高模型的泛化性能。
章节片段
实验设置
所使用的光学系统采用DH-mini紫外氘卤光源,光谱覆盖范围为155至1086?nm。所有样品均放置于10?×?10?×?30?mm的石英比色皿中,光程长度为10?mm。光谱采集使用PG2000-pro光纤光谱仪,该仪器专为紫外光源设计,同时保持0.3?nm的光学分辨率和制造商规定的10?ms最小积分时间。
光源发出的辐射
竞争自适应重采样方法
竞争自适应重采样(CARS)是一种结合蒙特卡洛采样和偏最小二乘(PLS)模型回归系数的变量选择技术[18]。该方法采用自适应重采样策略,选择PLS模型中绝对回归系数最大的波长点,通过指数衰减函数去除权重较小的波长,然后确定最优变量子集
特征波长选择
原始光谱变量的高维特性要求在建模前进行降维处理,因为全光谱建模可能会因光谱噪声污染和协方差冗余而导致无法收敛或过拟合。这种现象源于额外变量和无信息的光谱区域,这些因素会降低COD预测的可靠性。因此,通过光谱压缩技术实现特征波长选择对于提高模型性能至关重要
结论
结合CARS和SPA算法的优点,CARS_SPA算法被用于优化水质COD检测的特征波长。CARS_SPA算法在降低光谱数据维度方面表现出高贡献率和精度。利用LSSVM定量分析模型,建立了水质COD预测模型CARS_SPA-LSSVM。并与使用FULL构建的LSSVM水质COD预测模型进行了比较
资助
本研究未获得任何公共、商业或非营利部门的特定资助。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。