基于机器学习的超光谱反射率叶片硅含量估算

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Agricultural Research》：Machine Learning-Based Leaf Silica Content Estimation From Hyperspectral Reflectance

【字体：大中小】 时间：2026年04月12日 来源：Agricultural Research 1.1

编辑推荐：

　　摘要植物中的二氧化硅（Si）已成为全球变化生物地球化学、农学和生物技术等多个领域日益关注的课题，已经有多种技术被应用于定量测定植物中的Si含量。然而，适用于原位评估Si含量的技术相对较少，因为许多方法具有破坏性且成本较高。作为一种新的替代方法，利用高光谱数据的光谱分析技术既

　　摘要
植物中的二氧化硅（Si）已成为全球变化生物地球化学、农学和生物技术等多个领域日益关注的课题，已经有多种技术被应用于定量测定植物中的Si含量。然而，适用于原位评估Si含量的技术相对较少，因为许多方法具有破坏性且成本较高。作为一种新的替代方法，利用高光谱数据的光谱分析技术既非破坏性又相对便宜，而机器学习算法也被用来增强高光谱遥感技术以评估植物的生化特性。本研究的目的是探讨使用包括随机森林（Random Forests）、极端梯度提升（Extreme Gradient Boosting）和Cubist在内的传统机器学习算法，通过高光谱遥感技术估算宽叶猪秧菜（Zizania latifolia）中二氧化硅含量的潜力。结果显示，Cubist算法表现最佳，其性能与偏差比为2.02，均方根误差为42.52 μg/cm2。

引言
熔渣是通过将废物材料（如城市固体废物和焚烧灰烬）在高温下熔化，随后冷却固化而产生的[21, 26, 49]。目前，大部分熔渣被用于建筑和土木工程，主要作为混凝土产品、沥青混合物和回填材料的骨料[4, 34]。相比之下，人们越来越关注将其应用到具有稳定需求的高附加值行业，特别是农业领域。据报道，富含二氧化硅且主要由混合金属氧化物组成的熔渣肥料可以中和土壤酸性、提高作物产量、减少温室气体排放并固定重金属[9]。虽然二氧化硅不被视为植物生长的必需元素，但它对维持植物的机械强度和生理功能起着关键作用[13]。在压力条件下，其有益效果尤为明显[22]：茎部中硅的积累可以提高结构刚性并增强抗倒伏能力[12, 23]，从而减少强风或台风造成的收获损失。此外，硅的积累还能增强对生物胁迫（包括稻瘟病、白粉病以及稻叶虫和飞虱等害虫）的抵抗力[10, 28, 48]。然而，熔渣肥料的效果很大程度上取决于施用剂量。低剂量可以提高抗氧化酶活性和叶绿素含量，而过量施用则会抑制生理表现、幼苗生长和产量[6]。因此，准确量化二氧化硅含量对于评估肥料效果和优化肥料管理至关重要。

传统的重量分析法被用来测定二氧化硅含量，但这种方法具有破坏性，不适合监测生长季节叶片中二氧化硅含量的变化。因此，需要能够频繁测量的非破坏性方法。遥感提供了一种有效的方式来获取关于环境和植物特性的连续信息，特别是在捕捉植被物候的空间和时间变化方面非常有效[3, 29, 43, 44, 50]。在这些技术中，高光谱遥感技术在估算植物生化特性方面显示出巨大潜力[24, 38, 41, 42]。最近的数据驱动方法（包括机器学习和人工智能）的进步进一步扩展了光谱数据的分析能力。在植物和农业科学中，这些方法已被广泛应用于基因组选择、多性状预测以及复杂数据集（包括高维表型和环境信息）的整合[11]。机器学习算法特别适合于高光谱分析，因为它们能够捕捉光谱输入与生化特性之间的非线性关系，并在减少冗余的同时自动识别有用特征[8, 15, 18]。

尽管取得了这些进展，但在田间条件下，特别是对于接受不同熔渣肥料处理的禾本科植物，仍缺乏对机器学习算法用于非破坏性估算叶片二氧化硅含量的系统评估。解决这一空白对于将光谱和数据驱动方法转化为实际的肥料管理至关重要。本研究评估了三种广泛使用的机器学习算法——随机森林（Random Forest，RF）、极端梯度提升（Extreme Gradient Boosting，XGBoost）和Cubist——及其从高光谱反射数据估算二氧化硅含量的能力。研究目标包括：(1) 使用光谱分析方法量化禾本科植物中的二氧化硅含量；(2) 确定在最受熔渣肥料处理的野生稻植物中估算二氧化硅含量最有效的机器学习算法。

材料与方法
曼彻斯特野生稻（Zizania latifolia cv. Aogara）是一种通过根部主动吸收二氧化硅的喜硅植物，在日本静冈大学的稻田中栽培。植株在淹水条件下生长，行内和行间间距均为100厘米（图1）。移植时间为2020年5月29日，收获时间为2020年10月2日和5日。

作为硅肥使用的熔渣是由竖式气化熔炼炉生产，并由西谷焚烧厂（日本静冈）提供的，商品名称为SK Keikaru。基础肥料包括每1000平方米18公斤NH4Cl、12公斤P2O5和12公斤K2O。额外追施了每1000平方米12公斤NH4Cl、12公斤P2O5和6公斤K2O。该熔渣的可溶性硅酸含量为32%，标准施用量为每1000平方米127公斤。植株接受了五种熔渣肥料处理：0、1、2、4和8倍的标准用量。由于实验在连续耕作的稻田中进行，预计土壤中会有残留的硅。熔渣肥料在移植时通过空中喷洒施用。

图1：稻田中栽培的宽叶猪秧菜

2020年10月2日和5日，随机选取200片叶子（每种处理40片）测量叶面反射率和二氧化硅含量。为了最小化空间变异性，每片叶子测量15次反射率，并使用平均光谱值。使用带有卤素光源的叶夹和ASD FieldSpec 4 Standard-Res光谱仪（Malvern Panalytical Ltd., Malvern, UK）在400–2500纳米范围内以1纳米间隔记录高光谱反射率，从而减少光照相关误差。

二氧化硅含量通过干燥灰化后的重量分析法进行量化[32]：将1克干燥研磨后的植物材料放入200毫升烧杯中，并加盖透明盖。然后加入20毫升60%硝酸，混合物在加热板上分别加热至80°C 15分钟和100°C 15分钟（HTP552AA HOT PLATE，ADVANTEC）。随后将混合物加热至150°C三到四个小时。接下来去除透明盖，加入10毫升60%高氯酸，混合物在加热板上加热至80°C 15分钟、100°C 15分钟和150°C三到四个小时（直到混合物变透明）。混合物用Milli-Q水稀释五倍后通过6号滤纸（ADVANTEC）过滤。最后用Milli-Q水清洗烧杯，并用60°C温水清洗滤纸以减少氯的活性。最后将滤纸在马弗炉中500°C下灼烧，测量灰分重量。二氧化硅含量按公式（1）计算：
$$\begin{aligned}
Silica{\text{ }}content{\text{ }}(\mu g/cm^{2} ) & = Final\,weight\,(g)/Initial\,weight(g) \\
& *\,LMA(\mu g/cm^{2} ),
\end{aligned}$$
（1）

原始反射数据的预处理
先前的研究比较了几种光谱预处理方法，包括连续谱去除、去趋势（De-trending, DT）、一阶导数变换、乘法散射校正和标准正态变量（Standard Normal Variate, SNV），以获取植被生化特性（如叶绿素和类胡萝卜素含量）。在这些方法中，DT被证明是使用ASD FieldSpec? 4光谱仪获取的反射数据最有效的方法[24, 39, 40]。因此，本研究采用了去趋势方法来减少噪声并校正光谱数据中的基线和斜率变化。

基于机器学习算法的回归模型
数据集被分为训练集（50%）、验证集（25%）和测试集（25%），采用分层抽样策略。首先根据熔渣肥料处理对测量数据进行分组。每个组中，50%的样本随机分配到训练集中用于模型开发。剩余样本的一半用于验证以优化超参数，其余样本保留用于独立测试。此过程重复100次以确保模型评估的可靠性。

对于随机森林（RF），关键超参数包括树的数量、每次分裂时考虑的特征最大数量（mtry）、最大树深度、节点分裂所需的最小样本数以及每片叶子的最小样本数[2, 47]。树的数量设置为1000棵，以平衡预测性能和计算成本。其他参数进行了调整以控制模型复杂性并减少过拟合。

对于极端梯度提升（XGBoost [7]，提升轮数设置为1000轮。学习率（eta）、最大树深度、进一步分割所需的最小损失减少量以及L1和L2正则化参数被优化，以改善泛化能力的同时避免过拟合。Cubist模型的超参数（包括委员会数量、规则的最大数量以及每条规则允许的最大交互次数）也进行了优化[20]。增加模型复杂性可以提高准确性，但可能导致过拟合；因此，这些参数经过了仔细调整。

采用贝叶斯优化（Bayesian optimization）这一基于序列的模型方法来优化所有机器学习算法的超参数[36]。所有计算均使用R v4.0.2进行[30]。用于应用各种机器学习算法的R软件包列在表1中。

性能评估
为了评估回归模型的性能，计算了性能与偏差比（RPD，公式（2）[51]和均方根误差（RMSE，公式（3）[51]。根据RPD将每种方法分为三类：‘A’（RPD > 2.0）、‘B’（1.4 ≤ RPD ≤ 2.0）或‘C’（RPD < 1.4）。被分类为‘A’或‘B’的模型被认为具有估算二氧化硅含量的潜力[5]。还计算了决定系数（R2，公式（4）[51]：
$$RPD = \frac{SD}{RMSE}$$ （2）
$$RMSE = \sqrt {\frac{1}{n}\sum _{i = 0}^{n} \left( {\hat{y}_{l} - y_{i} } \right)^{2} }$$ （3）
$$R^{2} = 1 - \left( {\frac{\sum _{i = 1}^{n} \left( {y_{i} - \hat{y}_{l} } \right)^{2} }}{\sum _{i = 1}^{n} \left( {y_{i} - \bar{y}} \right)^{2} }}$$ （4）
其中SD是测试数据中二氧化硅含量的标准差，n是样本数量，$\:{y}_{i}$是测量的二氧化硅含量，$\:\widehat{{y}_{i}}$是估算的二氧化硅含量，$\:\stackrel{-}{y}$是测量二氧化硅含量的平均值。

注：本研究使用的性能指标（RPD、RMSE和R2）是在标准假设下计算的，即模型残差大致独立同分布。尽管在所应用的机器学习算法中，残差的严格正态性不是模型训练的先决条件，但这些指标隐含地假设预测误差是无偏的且不具有强自相关性。为了提高模型鲁棒性，所有模型都使用重复随机分层采样和独立测试数据集进行评估，这减少了数据划分和潜在的分布假设违反的影响。对波长i（单位：纳米）的灵敏度（Si）是通过方程式（5）[17, 25]计算得出的：$$S_{i} = \frac{{Var\left( {f\left( {X_{{400}} , \ldots ,X_{i} , \ldots ,X_{{850}} } \right)} \right) - f\left( {\bar{X}} \right)}}{{Var\left( Y \right)}},$$ （5）其中Var表示变异，f()是在其他波长保持其平均值不变的情况下，由于波长i的变化而产生的光谱预测值，f($\:\stackrel{-}{X}$)是基于平均反射率估计的值，Y代表测量的类胡萝卜素含量。计算出Si之后，我们将这些分数转换为百分比。

**测量结果**
图2和图3显示了测量的硅含量和单位面积叶质量（LMA）的直方图。LMA的范围从4.216到7.257毫克/平方厘米，平均值为5.691毫克/平方厘米，标准差为0.565毫克/平方厘米。相比之下，硅含量的范围从101.04到570.68微克/平方厘米，平均值为243.37微克/平方厘米，标准差为86.39微克/平方厘米。硅占LMA的1.9%至9.2%（平均：4.2%）。观察到硅含量与LMA之间存在显著的正相关（r = 0.701，p < 0.001；见图4）。

**图5**显示了原始反射率和DT后光谱中硅含量与各波长反射率之间的相关系数。去趋势处理后，800–1400纳米区域的相关系数略有下降。尽管如此，仍存在强烈的相关性，包括在520、740、1720和2315纳米附近的负相关以及在650纳米附近的正相关。最强的正相关出现在654纳米（r = 0.425），而最强的负相关出现在1720纳米（r = -0.498）。

**估计结果**
经过100次重复实验后，使用测试数据集（50片叶子×100次迭代）评估了模型性能。计算了三种机器学习算法的均方根误差（RMSE）、残差预测偏差（RPD）和决定系数（R2）（见表2）。基于RF和XGBoost的模型都被归类为C类，RPD值低于1.4，表明它们的回归适用性有限。相比之下，基于Cubist的模型始终被归类为A类，RPD值超过2.0，表明其预测性能优异。

**图6**展示了实际值与估计值之间的关系，显示RF和XGBoost在硅含量超过400毫克/平方厘米时，估计准确性显著下降。

**表3**总结了每次迭代中每个类别（A、B或C）被分类的次数。使用RF时，只进行了一次迭代（RPD = 1.43，类别B），因此无法确认其鲁棒性。在这种情况下，Cubist模型被归类为B类，而XGBoost模型被归类为C类。使用XGBoost时，根据分割方法的不同，10次迭代被归类为A类，表明模型性能优异；然而，47次迭代被归类为C类，表明其不适用。另一方面，使用Cubist时的最小RPD值为1.47，且从未被判断为不适用。

**灵敏度分析**
图7展示了灵敏度分析的结果。在基于XGBoost的模型中，850纳米和2300纳米的反射率各自占总重要性的大约40%。在基于RF的模型中也证实了2300纳米波段的重要性，它贡献了近40%。然而，在RF模型中，850纳米的反射率的重要性可以忽略不计（< 1%）。基于Cubist的模型显示出不同的模式。1675–1700纳米范围内的反射率与硅含量显示出强烈的负相关，被认为是最重要的预测因子。然而，最大重要性没有超过25%，表明Cubist将重要性分布在多个波段上，而不是依赖于少数几个主导波长。

**讨论**
近红外区域的反射率（大约1900和2300纳米对于禾本科植物）在估计植物硅含量方面是有效的，因为这种硅总是以正硅酸（Si(OH)4）的水合凝聚物的形式存在，并与有机生物分子结合[35]。确认了硅含量与680纳米反射率之间存在显著的正相关（p < 0.001），该波长接近红边拐点，这种关系有助于估计叶绿素含量[52]。矿渣肥料也会影响叶片的结构，如比叶面积、厚度和叶片干物质含量[14]。因此，近红外和短波红外反射率已被广泛用于评估叶片干物质[14]，这可能有助于解释反射率与硅含量之间的关系。

**准确性评估**
据报道，Cubist在相对较小的数据集上表现良好[15]，本研究证实了它适用于硅含量的估计。尽管很少有研究使用田间高光谱测量来估计植物硅含量，但相关研究提出了用于评估害虫昆虫中硅含量的反射率指数。Ahmed [1] 报告说，指数（R??? ? R???)/(R??? + R???) 能够有效估计Eldana saccharina中的硅浓度（R2 = 0.53）。此外，氮与硅的比例与（R???? ? R???)/(R???? + R???) 相关（R2 = 0.67）。对于Zizania latifolia，观察到硅含量与560纳米附近的反射率（r = -0.342，523纳米）以及730–750纳米附近的反射率（r = -0.339）之间存在显著相关，而在1075纳米处没有发现显著相关。然而，这些光学波段对Cubist模型的贡献很小。可见光区域的反射率受到叶绿素含量的强烈影响[19, 33, 37, 46]，其干扰效应在基于植物的分析中可能是不可避免的。因此，针对植物的机器学习模型选择了与研究昆虫时使用的光谱特征不同的特征[1]。

**图8**展示了去趋势处理后的光谱，其中包含四个拐点（IP1–IP4）。IP3（1680–1700纳米）对Cubist模型最为重要，而IP1对RF和Cubist都有贡献。IP2在XGBoost中占主导地位，尽管IP4与硅含量的相关性不显著（r = 0.004），但它对RF和XGBoost都重要。这表明强调IP4的模型可能缺乏鲁棒性。

**结论**
尽管研究结果令人鼓舞，但仍需承认几个限制。首先，训练数据集的规模相对较小，并且来自单一田间实验。尽管采用了重复的分层采样以提高模型的鲁棒性，但需要更大、更多样化的数据集来进一步提高模型的稳定性和泛化能力。其次，高光谱数据处理和机器学习模型优化涉及大量的计算成本，这可能限制了其立即大规模的应用。第三，本研究专注于特定环境和管理条件下的Zizania latifolia；因此，应在未来的研究中验证这些模型在其他作物或农业生态系统中的适用性。

从实际角度来看，所提出的框架对作物管理和育种具有重要意义。非破坏性地估计叶部硅含量可以实现硅吸收效率的快速表型分析，从而支持选择具有增强抗逆性和抗倒伏性的基因型。对于育种者来说，这种方法提供了一种补充工具，可以在整个生长季节进行重复测量，而无需破坏性采样。此外，将高光谱传感与数据驱动模型结合可以使用，有助于制定精准的施肥策略，支持基于矿渣的硅肥料的可持续使用，并改善水稻系统的养分管理。

联系信箱：

粤ICP备09063491号

热点排行