基于表层土壤特征预测深层土壤有机碳的机器学习模型比较:以旱地冬小麦-休耕轮作系统为例

《Agronomy》:Predicting Soil Organic Carbon in Lower Depths from Surface Soil Features Using Machine Learning Methods Lawrence Aula, Milena Maria Tomaz de Oliveira, Amanda C. Easterly and Cody F. Creech

【字体: 时间:2026年04月13日 来源:Agronomy 3.4

编辑推荐:

  本研究针对农田深层土壤有机碳(SOC)检测耗时昂贵且具破坏性的问题,利用长期耕作试验数据,采用普通最小二乘法(OLS)、LASSO、随机森林及贝叶斯加法回归树(BART)四种算法,探索利用0–10 cm土层总氮(Total N)、pH、阳离子交换量(CEC)及SOC预测10–20 cm SOC的可行性。结果表明,OLS模型(含Total N、pH、CEC)预测精度最优,相对均方根误差(rRMSE)达13.5%,属“良好”水平,为减少破坏性土壤采样提供了有效途径。

  
在广袤的农田里,土壤不仅仅是植物扎根的基质,更是一个复杂的生命支持系统。其中,土壤有机碳(SOC)被誉为土壤健康的“晴雨表”,它深刻影响着土壤团聚体稳定性、阳离子交换能力(CEC)以及水分涵养功能,更是土壤微生物赖以生存的氧化碳源。长期以来,农民和农学家们依赖实验室分析来了解土壤状况,但这不仅耗时费力、成本高昂,更重要的是,传统的钻探取样会对珍贵的耕地造成破坏——要知道,形成仅仅一英寸(约2.54厘米)的表土可能需要长达500年的时间。随着遥感技术的发展,卫星和无人机虽然能从空中窥探地表,却难以触及地下深处的秘密。那么,有没有办法只分析浅层的土壤,就能推断出深层的碳含量,从而减少这种“伤筋动骨”的采样呢?这正是本研究试图解答的核心问题。
为了探究利用表层土壤特征预测深层土壤有机碳的可能性,来自美国内布拉斯加大学高地平原农业实验室的研究团队Lawrence Aula、Milena Maria Tomaz de Oliveira、Amanda C. Easterly和Cody F. Creech开展了一项基于长期定位试验的研究。他们选取了1970年秋季建立的冬小麦(Triticum aestivum L.)-休耕轮作长期耕作试验田,该试验位于内布拉斯加州悉尼市,土壤类型为Duroc粉砂壤土。研究团队采集了2010年和2011年4月的土壤样品,分别测定了0–10 cm(表层)和10–20 cm(亚表层)深度的SOC、总氮(Total N)、pH和CEC等关键指标。随后,他们运用了普通最小二乘法(OLS)、最小绝对收缩与选择算子(LASSO)、随机森林(Random Forests)以及贝叶斯加法回归树(BART)四种统计学习算法,旨在寻找能够最精准预测10–20 cm土层SOC的最佳模型组合。该研究最终发表在《Agronomy》期刊上。
在开展研究的过程中,作者采用了几个关键的技术方法。首先,依托于自1970年起建立的长期耕作试验平台,该平台包含原生草地、免耕(NT)、残茬覆盖耕作(SM)和铧式犁耕作(MP)四种处理,采用随机完全区组设计,每处理三次重复。其次,进行了规范的土壤采样与分析,于2010和2011年4月分层采集0–10 cm和10–20 cm土样,SOC采用灼烧失重法测定,pH按土水比1:1测量,Total N采用干燃烧法,CEC则通过乙酸铵提取结合电感耦合等离子体(ICAP)定量。最后,利用R语言环境进行模型校准与验证,将数据集(n=24)随机分为训练集(n=12)和测试集(n=12),分别构建了OLS、LASSO、随机森林和BART模型,并使用均方根误差(RMSE)和相对均方根误差(rRMSE)等指标评估模型性能。
3. Results
研究结果显示,四种算法的预测精度存在显著差异。普通最小二乘法(OLS)在所有模型中表现最佳。通过最佳子集选择算法筛选,最终确定由0–10 cm土层的Total N、pH和CEC构成的三变量OLS模型为最优模型。该模型的RMSE仅为1.44 g kg?1,rRMSE为13.5%,根据评价标准属于“良好”级别。相比之下,单变量模型(仅含Total N)的RMSE为2.21 g kg?1,双变量模型(Total N和pH)为1.60 g kg?1,而包含所有四个预测因子的四变量模型则为1.79 g kg?1,均不及三变量模型。LASSO模型表现次之,其RMSE为1.69 g kg?1,rRMSE为16.0%,同样属于“良好”水平,该算法将Total N的系数缩减为零,最终选择了pH、CEC和SOC作为预测因子。而作为集成方法的随机森林和BART表现较差,RMSE分别为2.14 g kg?1和2.29 g kg?1,rRMSE均超过20%,被归类为“一般”水平。
4. Discussion
讨论部分指出,OLS模型的优异表现暗示了预测因子(0–10 cm的Total N、pH、CEC)与响应变量(10–20 cm的SOC)之间的关系近似线性。在小样本数据集(n=24)的情况下,线性模型方差较低,避免了复杂非线性模型容易产生的过拟合问题。从机理上看,Total N与SOC的高相关性(文献报道可达0.99)源于两者在有机分子中的紧密联系;CEC的正向贡献则可能归因于黏土矿物通过阳离子桥(如钙、镁等)与带负电的有机分子结合形成团聚体,从而保护SOC,这一点在该试验地约17%-20%的黏粒含量背景下尤为合理;而pH可能通过影响小麦生物量生产间接调控SOC输入。此外,表层SOC的淋溶也可能是连接两层碳库的途径之一。虽然单个预测因子单独建模时解释力不足(R2<50%),但组合后显著提升了预测能力。
5. Conclusions
综上所述,本研究证实了利用0–10 cm土层特征预测10–20 cm土层SOC的可行性。在样本量有限的情况下,结构简单的OLS模型(y = ?5.02 + 2.54 TN + 2.42 pH ? 0.27 CEC)凭借Total N、pH和CEC三个变量实现了高精度预测(rRMSE 13.5%)。这一发现具有重要的实践意义,它意味着在未来的土壤健康监测中,可以将破坏性采样深度限制在0–10 cm,进而通过统计模型推算更深层的碳储量,从而大幅降低实验室分析成本、节省时间并减少对农田土壤的扰动与破坏。尽管随机森林和BART等复杂模型在本研究中受限于样本量未能发挥优势,但未来随着大数据集的积累,其潜力仍值得期待。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号