基于相关性的LIBS策略用于田间土壤样本中土壤养分的定量分析
《Green Analytical Chemistry》:A Correlation-Based LIBS Strategy for Quantitative Analysis of Soil Nutrients in Field Soil Samples
【字体:
大
中
小
】
时间:2026年04月29日
来源:Green Analytical Chemistry 6.2
编辑推荐:
王杰宇|杨增岭|张倩|钟伟正|史卓琳|赖世轩|韩璐佳
中国农业大学工程学院农业生物质回收与增值工程实验室,北京100083
**摘要**
为了提高激光诱导击穿光谱(LIBS)在复杂基质效应和光谱冗余条件下快速定量分析土壤养分的准确性和适用性,对214个田间土壤样本进
王杰宇|杨增岭|张倩|钟伟正|史卓琳|赖世轩|韩璐佳
中国农业大学工程学院农业生物质回收与增值工程实验室,北京100083
**摘要**
为了提高激光诱导击穿光谱(LIBS)在复杂基质效应和光谱冗余条件下快速定量分析土壤养分的准确性和适用性,对214个田间土壤样本进行了分析。使用标准湿化学方法测定了十个土壤指标,包括代表性直接指标(Ca、Na、Mg和总氮TN)和间接指标(土壤有机质SOM;有效钾AK;以及pH值)。通过皮尔逊相关性分析研究了土壤指标之间的关系,并评估了预测间接指标的可行性。从颗粒化样本中获取LIBS光谱,并系统评估了光谱预处理、变量选择和多元建模对预测性能的影响。与特征发射线相关的直接指标(如TN、Ca和Na)通常具有较好的预测性能(相对预测偏差RPD > 1.5)。相比之下,间接指标的预测能力强烈依赖于它们与直接指标的相关性。例如,SOM与TN具有强相关性(r = 0.89),预测准确度较高(RPD = 1.56),而pH值和有效磷(AP)的相关性较弱,预测性能有限(RPD < 1.4)。VIP分析进一步揭示了不同光谱带对各种指标的贡献。还对基于LIBS的土壤定量研究进行了比较分析,考虑了样本来源、光谱采集条件和建模策略。重要的是,本研究表明,LIBS中间接土壤指标的可预测性主要受其与直接指标的相关性控制,而非独立的光谱响应,为基于LIBS的土壤分析提供了额外的见解。
**1. 引言**
快速准确地感知土壤养分指标的实时变化是实现精准变量施肥和推进可持续农业实践的关键前提。pH值、土壤有机质(SOM)、总氮(TN)、有效磷(AP)、有效钾(AK)、钙(Ca)和钠(Na)等土壤指标被广泛认为是土壤养分状况的关键指标。然而,尽管传统的实验室湿化学方法分析精度较高,但存在一些固有的局限性,如样品消耗量大、分析程序复杂且劳动强度高、分析时间长以及依赖化学试剂[[1], [2], [3], [4]]。此外,电感耦合等离子体质谱(ICP-MS)作为一种高灵敏度的元素分析技术,能够实现精确的多元素定量,并已广泛应用于土壤分析。然而,该方法通常需要复杂的样品预处理(如消化),难以用于快速的原位检测。因此,迫切需要开发快速、高效且环保的土壤养分评估分析技术。
激光诱导击穿光谱(LIBS)是一种利用激光脉冲在样品表面产生等离子体,然后基于发射光谱进行元素分析的分析技术。由于其分析速度快、样品制备简单且操作方便,LIBS在土壤分析中受到了越来越多的关注,被认为是快速测定土壤化学性质的有前景的方法[[5], [6], [7]]。然而,在多种元素共存的情况下,光谱线重叠和相互干扰会使得光谱解释变得复杂,可能导致光谱强度与元素浓度之间的非线性关系。此外,LIBS信号不仅受元素组成影响,还受各种物理过程的影响。例如,等离子体温度的波动会重新分配物种能级,从而直接影响特征发射线的强度[8];土壤湿度的变化会通过蒸发和分解过程改变激光能量,进而影响等离子体特性[9];矿物组成的差异也会影响等离子体的形成,导致明显的基质效应[10]。这些因素共同增加了LIBS光谱解释的复杂性,阻碍了准确的定量建模。
为了解决这些挑战,许多研究探讨了基于LIBS的土壤定量分析工作流程的不同阶段。Wang等人[11]比较了单变量和多变量模型对铜(Cu)和铅(Pb)等土壤重金属的定量效果,表明由于明显的基质效应,多变量校准方法更适合用于基于LIBS的土壤分析。Xu等人[12]研究了LIBS光谱采集条件和标准化策略,通过优化激光脉冲数量和标准化方法等参数,提高了SOM、TN和总可溶性盐含量(TSC)的预测准确度。Erler等人[13]评估了一种手持LIBS仪器的性能,并比较了多种多元回归技术(包括偏最小二乘回归(PLSR)、Lasso回归和高斯过程回归(GPR)对Ca、K和镁(Mg)等土壤指标的预测效果。从变量选择的角度来看,Tavares等人[14]探讨了不同变量选择方法对可提取土壤养分建模的贡献。Marmette等人[15]评估了LIBS在九种土壤化学性质中的应用,报告称LIBS光谱能够相对准确地预测Ca、Mg、铝(Al)、土壤有机质(SOM)和阳离子交换容量(CEC)。
尽管之前的研究在特定数据集和目标土壤指标方面取得了进展,但大多数研究主要集中在优化单个养分的光谱处理或建模方法上,缺乏对目标指标及其与LIBS光谱信息关系的研究。在基于LIBS的土壤养分分析中,能够直接与特定元素发射线关联的指标被称为直接指标[13]。例如,Ca、Na和TN对应于特定的元素含量,并在LIBS光谱中表现出特征发射线,因此被归类为直接指标。尽管它们的定量分析通常有明确的物理基础支持,但由于非线性效应和LIBS定量过程中的各种物理影响,其准确性和可靠性仍需进一步提高。相比之下,如SOM和pH值等缺乏直接光谱对应关系的指标被归类为间接指标。目前对这些指标的研究通常依赖于多元建模方法进行直接预测,但不同研究之间的预测性能差异较大,对其定量可行性的系统解释仍然有限。因此,这些间接指标的定量潜力值得进一步研究。
基于上述考虑,本研究提出了一种基于相关性的建模策略,用于直接和间接土壤养分指标,旨在提高建模效率,增强基于LIBS的土壤分析的准确性,并为间接指标的建模提供更好的指导和可解释性。共收集了214个自然田间土壤样本,使用标准实验室湿化学方法测定了十个土壤指标,包括pH值、土壤有机质(SOM)、总氮(TN)、有效磷(AP)、有效钾(AK)、钙(Ca)和其他元素。其中,TN、Ca、Na、Mg、铁(Fe)和锰(Mn)被归类为直接指标,而pH值、SOM、AP和AK被认为是间接指标,因为它们不能直接与单一元素的发射线关联。首先进行了皮尔逊相关性分析,以研究土壤指标之间的关系,特别关注间接指标与直接指标之间的相关性。基于这些关系,建立了一个初步标准,以评估基于LIBS的间接指标定量分析的可行性。随后,获取了相应样本的LIBS光谱,形成了一个结合自然田间土壤关键养分指标与LIBS光谱信息的配对数据集。接着,系统评估了不同的光谱预处理方法(竞争自适应加权采样(CARS)和自助软收缩(BOSS)以及多元建模方法(包括偏最小二乘回归(PLSR)和支持向量回归(SVR)对模型预测性能的影响。此外,通过结合变量重要性投影(VIP)分析和皮尔逊相关性分析,阐明了LIBS光谱带对不同土壤养分指标建模的贡献特征。最后,全面回顾和比较了现有的基于LIBS的土壤定量研究,包括样本来源、光谱采集条件和建模策略,为未来的方法发展和实际应用提供了参考框架。
**2. 材料与方法**
2.1. 土壤样本采集与制备
土壤样本来自中国河南省新乡市,地理范围为东经113°39′至114°03′,北纬35°05′至35°24′。在每个采样点,彻底混合了表层土壤(0–20厘米深度),并收集了约1公斤的土壤用于后续处理和分析。研究区域的土壤主要由沙土和沙壤土组成。
土壤样本的预处理按照ISO 11464:2006标准[16]进行。简单来说,手动去除了石头、植物残余物等外来物质。然后将样本通过2毫米筛网筛分,并风干至恒定重量。干燥后的土壤被研磨并筛分至实验室测定土壤化学指标和LIBS光谱分析所需的粒径。风干可以降低样本的含水量,从而减少激光相互作用过程中的能量损失,提高等离子体激发的有效能量,并改善光谱信号强度。
2.2. 土壤样本的实验室湿化学分析
土壤pH值是在土壤-水悬浮液(1:2.5,v/v)中使用组合电极(PB-10,Sartorius,德国)测定的。SOM通过重铬酸钾(K?Cr?O?)滴定法(外部加热)测定。TN使用MACRO CNS元素分析仪(Elementar Analysensysteme GmbH,Hanau,德国)测量。AP用碳酸氢钠(NaHCO?)提取,并通过钼蓝法测定;AK用醋酸铵(CH?COONH?)提取,然后通过火焰光度法测定。Ca、Na、Mg、Fe和Mn的浓度在湿酸消化后通过电感耦合等离子体质谱(ICP-MS,iCAP RQ,Thermo Fisher Scientific,美国)测定[1]。
2.3. 光谱采集
2.3.1. 颗粒制备和光谱采集
使用0.25毫米筛网筛分的土壤样本进行LIBS分析。筛分过程减少了粒径的异质性,从而最小化了激光与物质的非均匀相互作用,提高了等离子体形成的稳定性。对于每个土壤样本,随机选取三个子样本并压制成厚度约为0.2厘米的颗粒。该过程减少了颗粒间的空隙,减少了激光烧蚀过程中的能量损失,从而提高了等离子体的稳定性并改善了光谱信号的可重复性[17]。颗粒化使用颗粒压机(AZZOTA,中国)在2 MPa的压力下进行2分钟。
在每个颗粒的3×3个不同位置收集LIBS光谱,每个位置累积三次激光发射以获得有效光谱。然后对每个土壤样本的三个颗粒的光谱进行平均处理,以减少由于样本异质性引起的误差[18]。
2.3.2. LIBS扫描条件
光谱采集使用台式LIBS系统(ChemReveal,TSI Inc., 美国)进行。激光脉冲能量为30 mJ,探测器相对于激光脉冲的延迟时间为0.8 μs,每个单一点处的激光光斑直径约为200 μm。
2.4. 数据处理
2.4.1. 异常值检测和数据集划分
使用杠杆-残差方法[19]识别并移除了异常值样本,其中杠杆表示单个样本在光谱空间中的影响,残差表示初始校准模型下的相应预测误差。具有高杠杆值和大残差值的样本被分类为异常值并从进一步分析中排除,移除的样本比例严格控制在总数据集的5%以内。随后,使用Kennard–Stone(KS)算法[20]将剩余数据集分为训练集(Train)和独立测试集(Test),比例为3:1。
2.4.2. 光谱预处理
由于重复测量中的固有波动,LIBS光谱在采集过程中不可避免地表现出变异性,这可能对校准模型的定量性能产生不利影响[21]。为了提高建模精度,系统评估了多种光谱预处理方法,并确定了最佳预处理策略。首先对原始光谱应用小波变换(WT)以抑制高频随机噪声[22]。为了解释土壤样本间的基质诱导强度变化,采用了行标准化方法(包括面积标准化[23]和长度标准化[24])。此外,还采用了列标准化方法来校正不同波长下光谱变量之间的尺度差异,包括均值中心化[25]和Z分数标准化[26]。对于行标准化和列标准化,每个类别中只选择了一种代表性方法用于后续模型开发。光谱变量选择
CARS算法基于迭代蒙特卡洛采样策略,其中使用随机选择的变量子集反复构建PLSR模型。回归系数的绝对值被用作变量重要性的度量,结合指数衰减函数(EDF)和自适应加权采样(ARS)方案来逐步保留对模型贡献最大的光谱变量[27]。
BOSS算法同样依赖于PLSR回归系数进行变量加权。它通过加权自助采样生成子模型集合,并在迭代过程中采用软阈值收缩策略动态调整变量权重,从而逐渐消除冗余或信息量较弱的光谱变量[28]。
2.4.4 模型开发与评估
为了定量建模十个土壤养分指标,使用了十折交叉验证来确定PLSR的最佳潜在变量数量,并优化SVR的超参数。鉴于LIBS光谱数据的高维度,应用了主成分分析(PCA)来降低计算复杂性和运行时间,然后将得到的主成分作为SVR模型的输入[29]。在模型开发过程中,主成分的数量和SVR模型的关键参数(包括核类型、惩罚参数C、ε和γ)被视为超参数,并使用贝叶斯优化进行联合优化。这些超参数的搜索空间和最优值分别列在表S2和S3中(见补充材料)。
模型性能通过决定系数(R2)、均方根误差(RMSE)和残差预测偏差(RPD)来评估。交叉验证集和独立测试集的R2值分别表示为R2cv和R2p,相应的RMSE值表示为RMSEcv和RMSEp[30]。
2.4.5 VIP分析
VIP值用于评估预测变量在定量模型中的整体贡献,较高的VIP值表示相应变量对响应的更强影响[31,32]。此外,还使用变量重要性(VI)来分析模型中各个波长变量的贡献,VI值的计算公式如下:
(1) VI = VIP / sum(VIP)
为了便于光谱解释,VI值使用1纳米的区间进行平均,每个区间内的平均VI值用来表示相应波长区间的相对重要性。然后将得到的VI分布曲线作为每个区间平均波长的函数绘制出来。
2.4.6 数据分析软件
异常值检测使用PLS_Toolbox 8.2(Eigenvector Research, Inc., USA)进行。所有其他算法和数据分析都是在Python环境中使用广泛采用的科学库实现的,包括scikit-learn、pandas、NumPy及相关包。
3. 结果与讨论
3.1 土壤养分指标的相关性分析及数据集统计
图1展示了土壤养分指标之间的皮尔逊相关系数,为间接指标的定量建模提供了初步见解[33]。以SOM为例,尽管LIBS光谱中没有与SOM对应的直接发射线,但SOM与直接指标TN显示出强烈的线性相关性(r=0.89)。此外,间接指标AK也与TN显示出中等程度的相关性(r=0.69)。这些关系表明,某些间接指标的信息可能通过它们与直接元素指标的统计关联在LIBS光谱中被间接捕获。相比之下,间接指标pH和AP与选定的六个直接指标没有显著相关性,这在一定程度上限制了基于LIBS进行可靠定量预测的可行性。
下载:下载高分辨率图像(759KB)
下载:下载全尺寸图像
图1. 土壤养分指标的皮尔逊相关系数矩阵。
某些直接指标之间也观察到了强相关性,例如Fe和Mg(r = 0.92),这表明数据集中可能存在多重共线性。这种多重共线性可能导致回归分析期间模型参数的不稳定性。然而,本研究中使用的多元方法(包括PLSR和SVR)可以在一定程度上减轻这种影响,从而提高模型的鲁棒性。需要注意的是,皮尔逊相关分析仅捕捉线性关系,因此仅作为初步探索工具。因此,需要高级机器学习方法来捕捉LIBS光谱数据与目标土壤养分指标之间的复杂且可能是非线性的关系。
进一步使用偏度和峰度统计量评估了土壤指标的分布特征(见补充材料中的表S4)。大多数变量表现出大致对称的分布,偏度值范围从-0.42到0.85。然而,可利用磷(AP)和钙(Ca)显示出明显的右偏分布,并且峰度值相对较高,表明存在高值样本。由于空间异质性和局部富集效应,这种分布模式在土壤养分数据集中很常见。
训练集和独立测试集的测量土壤指标的描述性统计在表1中总结。在整个数据集中,所有指标都表现出显著的变异性,反映了采样田地中多样的耕作和管理条件。这种变异性增强了数据集在土壤物理化学性质方面的代表性,并为开发稳健的光谱校准模型提供了足够的覆盖范围。此外,训练集和测试集的标准差和变异系数相当,表明数据集的分割是适当的,且两个子集在统计上具有代表性。
表1. 土壤养分指标的描述性统计。
指标 数据集 样本数量 范围 平均值±标准差 CV%
Ca 训练 158 9.75 -65.74 23.14±7.28 31(g/kg) 测试 52 10.17 -53.08 24.35±7.36 30
Na 训练 158 2.53 -6.13 4.27±0.81 19(g/kg) 测试 53 2.66 -5.44 3.94±0.67 17
Mg 训练 159 3.71 -17.35 8.37±2.04 24(g/kg) 测试 53 5.52 -14.89 8.96±1.85 21
Fe 训练 160 9.12 -29.16 18.07±3.30 18(g/kg) 测试 53 13.49 -28.12 19.33±3.56 18
Mn 训练 158 223.21 -549.80 396.99±60.42 15(mg/kg) 测试 52 290.15 -557.10 412.51±59.30 14
TN 训练 160 0.36 -2.09 1.16±0.34 30(g/kg) 测试 53 0.75 -1.68 1.23±0.21 17
SOM 训练 158 4.81 -32.24 19.20±5.92 31(g/kg) 测试 53 10.90 -30.82 20.74±4.41 21
AK 训练 159 53.33 -524 189.32±88.17 47(mg/kg) 测试 53 101.33 -566 236.94±105.65 45
pH 训练 160 7.64 -8.78 8.25±0.20 2 测试 53 7.93 -8.55 8.28±0.15 2
AP 训练 160 5.36 -218.64 32.56±268 0(mg/kg) 测试 53 6.80 -832 7.33±17.56 64
3.2 LIBS光谱分析与预处理方法
图2(a)显示了所有土壤样本的平均LIBS光谱,其中识别出了主要特征发射线及其对应的元素。光谱表明,钙(Ca)和铁(Fe)具有许多高强度的发射线,而镁(Mg)、钾(K)和钠(Na)等元素也呈现出明显的光谱特征。对全范围LIBS光谱进行的主成分分析(PCA)显示,前六个主成分解释了97.95%的累积方差。如图2(b)所示,PC1主要由与Ca、Mg和Fe等元素相关的强特征发射线主导,包括Mg I 383.83 nm、Ca II 393.37 nm和Fe I 430.77 nm。这些元素在土壤中含量相对较高,发射强度强,因此对整体光谱方差有显著贡献。由于Ca、Mg和Fe是土壤矿物的主要成分,PC1很可能反映了土壤矿物基质组成的变化。此外,PC2和PC3对碱金属发射线(如K I 766.49 nm和Na I 588.99 nm)也有较高的载荷。
图2(c)展示了PCA得分图,说明了所有样本在前两个主成分(PC1和PC2)定义的空间中的分布。在这个空间中没有观察到明显的聚类或分离。这可能是因为本研究中的样本主要来自同一地区,主要由沙土和沙壤土组成,导致土壤类型的变异相对有限,因此在主成分空间中的分布较为集中。这些结果表明,数据集中的光谱变化主要由元素组成和基质效应的差异驱动,而不是由不同的土壤类型分组引起的。
对于每个土壤养分指标,系统地评估并优化了光谱预处理方法。如表2所示,光谱预处理通常可以提高LIBS模型的预测性能,特别是对于TN、Ca和AK等指标。对于其余指标,改进效果相对较小。这些结果表明,适当的预处理策略可以有效减少背景噪声并减轻基质效应[34,35]。此外,鉴于SOM、AK和TN之间的强相关性,为TN确定的最佳预处理方法也被进一步应用于SOM和AK。结果显示,转移的预处理策略比原始光谱数据提高了预测性能;然而,其整体性能仍不如为每个指标单独优化的模型。
表2. 光谱预处理方法的评估结果。
指标 预处理方法 R2CV(原始→处理) RMSECV(原始→处理)
Ca (g/kg) WT (sym5, level=2), area normalization, Z-score 0.535 → 0.675 4.282 → 3.721
Na (g/kg) WT (sym5, level=2), length normalization, Z-score 0.458 → 0.567 0.540 → 0.475
Mg (g/kg) WT (coif5, level=2), length normalization, Mean-centering 0.477 → 0.528 1.189 → 1.120
Fe (g/kg) WT (coif5, level=2), length normalization 0.321 → 0.355 2.440 → 2.346
Mn (mg/kg) WT (db4, level=2), length normalization, Z-score 0.222 → 0.232 49.288 → 48.572
TN (g/kg) WT (sym5, level=1), length normalization, Z-score 0.631 → 0.742 0.197 → 0.163
SOM (g/kg) WT (sym5, level=1), length normalization, Mean-centering 0.678 → 0.692 3.096 → 3.031
SOM (g/kg) TN-derived workflow 0.678 → 0.682 3.096 → 3.051
AK (mg/kg) WT (sym5, level=2), length normalization, Z-score 0.252 → 0.448 68.989 → 61.262
AK (mg/kg) TN-derived workflow 0.252 → 0.376 68.989 → 63.825
pH WT (sym5, level=1), Z-score 0.005 → 0.062 0.190 → 0.181
AP (mg/kg) WT (coif5, level=2), Z-score -0.535 → -0.506 22.822 → 21.784
注:“TN-derived workflow”表示为TN确定的最佳预处理方法直接应用于其他相关指标,而无需单独优化。
3.3 模型评估与比较
表2(见补充材料)总结了使用全范围LIBS光谱和CARS及BOSS算法选定的特征波长变量开发的PLSR和SVR模型的评估结果。总体而言,变量选择方法的引入提高了大多数土壤养分指标在交叉验证期间的拟合性能,表现为R2CV值的增加和RMSECV的降低。然而,在独立测试集上的预测性能改进相对较小,某些指标甚至出现了轻微的性能下降。这些结果表明,在基于LIBS的土壤养分指标定量建模中,变量选择方法在减少光谱冗余和改善模型内部拟合方面是有效的,但不一定能够显著提高模型的泛化能力[36]。
在模型比较方面,PLSR在大多数指标(如SOM、TN和Mg)上表现出更稳定和稳健的性能,而SVR在特定指标(包括Na和Ca)上显示出更强的非线性拟合能力。值得注意的是,CARS–SVR模型在Ca上的预测性能更优(R2p = 0.799, RMSEp = 3.266 g·kg?1),表明CARS算法能够有效提取与Ca相关的光谱特征,并协同增强SVR的非线性建模能力。CARS–SVR模型在Ca上的优异性能可能归因于LIBS中Ca发射线的非线性光谱响应。Ca在土壤中的含量通常较高,其强发射线(例如图2(a)中的Ca II 393.37 nm)容易受到自吸收效应的影响,这可能导致光谱强度和元素浓度之间的非线性关系。在这种情况下,像SVR这样的非线性模型比线性模型更适合捕捉光谱变量和Ca浓度之间的复杂关系。相比之下,所有模型在pH和AP等指标上的预测性能较差(R2p < 0.3),表明LIBS数据中的光谱响应较弱或间接,定量建模难度较大[37,38]。
根据每个土壤指标的最佳模型的RPD值,并遵循定量土壤科学中的通用标准,RPD值低于1.4的模型被认为预测能力较弱,不适合可靠预测;RPD值在1.4到2.0之间的模型被认为是具有良好预测性能的;RPD值超过2.0的模型被认为具有出色的预测能力[38]。在本研究中,Ca模型的RPD值为2.25,表现出优异的预测性能。SOM、TN、Na、Mg和Fe的模型的RPD值范围为1.43到1.86,表明它们具有良好的预测能力。相反,AP、pH和Mn的模型的RPD值低于1.4,表明它们的预测能力有限,难以实现可靠的定量分析。
图3(a)–(e)和3(k)–(o)展示了训练集和独立测试集中每个指标的最佳模型的测量值与预测值的散点图。灰色实线表示1:1参考线,靠近这条线的数据点表示更高的预测准确性[39]。TN、Ca和SOM的散点分布更集中在1:1线附近,这与它们较高的R2p和较低的RMSEp值一致,反映了模型的稳定性和泛化性能优越。相比之下,pH和Mn等指标的散点分布更加分散,与1:1线的偏差较大,进一步证实了定量评估结果,并确认这些指标在当前建模框架下的预测性能相对有限。预测值与测量值的散点图用于土壤养分指标的校准模型,以及相应的VI分布曲线:(a–e) 和 (k–o) 显示预测值与测量值的散点图;(f–j) 和 (p–t) 展示了VI分布曲线。3.4. LIBS波长的变量重要性(VI)分析 图3(f)–(j) 和 (p)–(t) 展示了每个土壤养分指标的变量重要性(VI)分布。对于钙(Ca),光谱线Ca I 657.28 nm和Ca I 558.20 nm表现出较高的VI值,证实了它们在钙定量分析中的重要性。对于钠(Na),与钠相关的发射线(Na I 383.36 nm、Na I 394.26 nm和Na I 589.59 nm)也表现出较高的VI值。此外,与钾(K)相关的线(K I 766.49 nm和K I 769.90 nm)也有显著贡献,表明钾的光谱信息在钠的定量建模中具有协同效应。这种现象可能与图2(a)中显示的光谱特性有关,其中K I 766.49 nm和K I 769.90 nm是强度较高的主导发射线。而且,它们在图2(b)中观察到的相对较高载荷可能进一步影响了钠预测模型的构建。对于镁(Mg),特征发射线如Mg I 383.83 nm和Mg I 631.81 nm也表现出较高的VI值。值得注意的是,Mg I 383.83 nm在图2(a)中被识别为主导发射线,并显示出较高的载荷,进一步突出了其在镁定量建模中的重要性。此外,与铁(Fe)相关的线(包括Fe II 611.33 nm和Fe I 613.58 nm)在镁模型中也显示出相对较高的VI值。这一观察结果与图1中的相关矩阵一致,观察到镁和铁之间存在强相关性(r=0.92)。对于铁(Fe),多个与铁相关的发射线(包括Fe II 611.33 nm、Fe I 613.58 nm和Fe I 614.17 nm)表现出较高的VI值,强调了它们在铁预测中的主导作用。对于锰(Mn),与锰相关的线如Mn II 555.91 nm和Mn II 620.14 nm也显示出相对较高的VI值,强调了它们对锰定量建模的关键贡献。对于总氮(TN),与氮相关的发射线(包括N II 383.84 nm、N II 568.62 nm和N II 592.79 nm)表现出相对较高的VI值,表明它们对总氮预测有重要贡献。此外,与碳(C)相关的线(C II 388.38 nm)和与钾(K)相关的线(K I 404.72 nm和K I 475.39 nm)在总氮模型中也显示出相对较高的VI值。这可能反映了总氮、土壤有机质(SOM)和土壤可利用碳(AK)之间的耦合分布特性。先前的研究表明,AK和SOM显著影响总氮的空间分布[40]。同时,图1中呈现的相关性分析也表明总氮与SOM和AK之间存在强相关性,为C和K相关光谱特征在总氮模型中的重要性提供了合理的解释。对于土壤有机质(SOM),与碳相关的发射线(如C II 279.77 nm、C II 388.38 nm和C II 392.40 nm)表现出较高的VI值,这与SOM主要由富含碳的有机化合物组成的基本特性一致。同时,与氮相关的线N II 592.79 nm也显示出相对较高的VI值,这与图1中观察到的总氮与SOM之间的相关性一致。此外,一些与金属相关的发射线(如Fe I 403.32 nm和Fe I 766.43 nm)在SOM模型中也显示出一定的重要性。这可能是由于SOM与金属离子之间的络合或结合作用[41,42]。对于土壤可利用碳(AK),三条与钾相关的发射线(K I 404.72 nm、K I 766.49 nm和K I 769.90 nm)表现出较高的VI值,表明钾的光谱特征在AK建模中起主导作用。此外,与氮相关的线N II 592.79 nm也显示出相对较高的VI值。这进一步表明,由于间接指标AK与直接指标总氮之间的相关性,AK的定量建模可能部分由与氮相关的发射线驱动。对于pH值,变量重要性(VI)分析显示,包括Mg I 765.76 nm、K I 769.90 nm、O I 770.68 nm、Na I 589.59 nm、Na I 819.48 nm和H I 656.29 nm在内的几条发射线表现出相对较高的VI值,表明它们对pH值建模有贡献。这与先前研究报告的土壤pH值与钠、钾和镁等元素浓度之间的相关性一致[43]、[44]、[45]。此外,与碳相关的线C II 279.77 nm也显示出相对较高的VI值,这可能是由于土壤有机质中的有机酸和含碳官能团对土壤缓冲能力的影响,从而间接影响pH值的变化[45]。对于有机质(AP),与磷相关的发射线(P II 554.11 nm和P II 608.78 nm)表现出相对较高的VI值,表明它们对有机质预测有显著贡献。总体而言,大多数土壤养分指标在模型构建过程中受到多个元素光谱线的协同贡献的影响,表明基于LIBS的定量土壤建模并不依赖于单一元素发射线的响应。相反,它整合了土壤基质中存在的多种元素特性及其相互关系。这一发现进一步强调了基于多元校准模型的LIBS定量土壤分析的优势[11]。此外,本研究的结果表明,土壤指标的预测性能在很大程度上取决于它们是否可以直接与LIBS光谱中的元素信息相关联,或者通过统计相关性间接关联。与特定元素发射线直接相关的直接指标(例如总氮、钙和钠)通常具有较好的预测性能。相比之下,间接指标的预测性能在很大程度上取决于它们与直接指标的相关性强弱。例如,与总氮有强相关性的土壤有机质(r=0.89)和土壤可利用碳(r=0.69)表现出相对较好的预测性能,而与直接指标相关性较弱的pH值和有机质(AP)则表现出较差的预测性能。3.5. 基于LIBS的土壤定量结果在不同研究中的变异性来源尽管LIBS已广泛应用于土壤养分指标的定量分析,但不同研究之间的预测性能仍存在相当大的变异性,其根本原因尚未得到分析。为了解决这个问题,表S5(见补充材料)总结了并比较了先前研究在样品来源、光谱采集条件、预处理策略和建模方法方面的差异。早期研究[46,47]通常依赖于具有人工构建浓度梯度的标准土壤样品,这些样品表现出相对较弱的基质效应和更均匀的分布,从而便于模型开发。相比之下,最近的研究越来越多地关注自然田间的土壤,这些土壤更好地反映了实际情况,但引入了更大的成分复杂性、空间异质性和更强的基质效应,从而增加了建模难度。为了解决样本量和数据不平衡的问题,已经探索了数据增强技术,如混合数据(Mixup)、生成对抗网络(GANs)和扩散模型[52,53],尽管它们的有效性取决于与真实土壤特性的匹配程度。关于光谱采集,常用的信号增强技术(如双脉冲激发和石墨掺杂)和多点积累策略[12]用于提高信号稳定性和预测准确性。然而,这些方法会增加采集时间和实验成本,因此需要平衡效率和性能。在预处理方面,小波去噪[11,46]和归一化方法被广泛采用以抑制噪声和减轻基质效应。对于建模,传统的机器学习方法如PLSR和SVR在小数据集上仍然占主导地位,而深度学习方法在数据集较大时显示出优势。总体而言,现有研究在样本设计、采集策略、预处理和建模方法方面存在显著差异。在此背景下,本研究专注于自然田间的土壤,并系统地评估了使用中等采集策略、常用的预处理方法和传统机器学习模型的多个土壤指标的性能,为复杂条件下的LIBS基土壤分析提供了实际见解。4. 结论总体而言,本研究提出了一种基于相关性的建模策略,区分了用于LIBS基土壤养分定量分析的直接和间接指标,为间接指标(例如土壤有机质)的潜在可预测性提供了实证支持。在此基础上,系统评估了结合光谱预处理、变量选择和多元建模方法的LIBS在自然田间土壤中关键养分定量分析中的适用性。此外,通过将相关性分析与投影变量重要性(VIP)分析相结合,阐明了不同光谱带对各种土壤指标建模的贡献模式。对于本研究中的土壤样品,LIBS对土壤有机质(SOM)、总氮(TN)、钙(Ca)、钠(Na)和镁(Mg)表现出中等预测能力(0.58 < R2 < 0.80)。相比之下,pH值、有机质(AP)和锰(Mn)的预测性能仍然有限(R2 < 0.30),表明在复杂的自然土壤条件下,这些指标的光谱响应相对较弱或受到多种相互作用因素的强烈影响。这些差异可能部分归因于某些指标在自然采集的土壤中特定浓度范围内的样本分布相对稀疏,这可能限制了模型学习和这些区间内的预测性能。本研究的采样区域在地理上有限(中国河南省新乡市),这可能在一定程度上限制了研究结果的普遍性。因此,未来的研究可以纳入来自更广泛地理区域的土壤样本以进行进一步验证。同时,在保持物理可解释性的同时,可以探索数据增强技术(如GANs和DDPMs)来缓解样本分布不平衡的问题。此外,可以引入基于编码器的深度学习方法以实现更有效的特征提取和不同土壤指标的建模策略优化。此外,结果表明,在复杂的自然条件下,仅使用LIBS实现某些土壤指标的高精度定量分析仍然具有挑战性。未来的研究可以进一步探索多源数据融合方法,例如将LIBS与可见光-近红外(Vis–NIR)和中红外(MIR)光谱结合,以利用不同技术的互补信息。这种整合有潜力提高预测准确性和模型鲁棒性,从而促进快速土壤养分评估技术的发展。未引用的参考文献[[48], [49], [50], [51]]CRediT作者贡献声明王杰宇:撰写——原始草稿、软件、方法论。杨增玲:数据管理、概念化。张倩:调查、数据管理。钟伟正:调查。史卓琳:调查。赖世轩:验证。韩璐佳:撰写——审阅与编辑、监督、项目管理、形式分析、概念化。