《Agriculture》:Maturity Prediction and Correlation Analysis of Additive-Treated Cattle and Sheep Manure Composts and Vermicomposts Using Machine Learning Algorithms
Shno Karimi,
Hossein Shariatmadari,
Mohammad Shayannejad and
Farshid Nourbakhsh
编辑推荐:
为了解决传统方法评估堆肥成熟度存在耗时、费力且难以捕捉非线性关系等问题,研究人员利用机器学习分类模型对添加剂处理的牛粪和羊粪堆肥与蚯蚓堆肥的成熟度进行预测。研究表明,集成模型(如随机森林和AdaBoost)在基于CEC和C/N的成熟度分类中表现出最高的预测精度(可达0.98)和最低的误差率,为堆肥质量智能化评估与管理提供了高效、可靠的工具。
随着全球对可持续废弃物管理和土壤健康的日益关注,堆肥作为一种将有机废弃物转化为稳定、营养丰富的有机肥料的有效且环保的策略,引起了广泛兴趣。然而,堆肥的“成熟度”是决定其质量、安全性和农艺有效性的关键参数。未成熟的堆肥可能含有氨、挥发性脂肪酸等植物毒性物质,影响种子发芽和土壤微生物活性。因此,可靠评估堆肥成熟度对于确保其安全施用和市场可接受性至关重要。传统的成熟度监测方法通常依赖于耗时费力的实验室分析,而用于模拟堆肥动态的机理和实证模型往往难以捕捉堆肥过程中固有的高度非线性和异质性,特别是在涉及可变原材料、添加剂和微生物种群时。这些挑战促使研究者寻求更灵活、稳健且数据驱动的方法进行过程建模和预测。
为了应对上述挑战,本研究探索了八种有监督分类算法在预测经不同添加剂处理的牛粪和羊粪堆肥与蚯蚓堆肥成熟度方面的适用性。该研究旨在提高基于粪便的堆肥系统中成熟度评估的准确性和效率,为堆肥质量管理提供更明智的决策支持,并助力开发能够最大限度减少环境影响、同时最大化农艺效益的智能化堆肥系统。这项研究发表在《Agriculture》期刊上。
本研究主要运用了以下关键技术方法:通过包含756个样本(4种堆肥/蚯蚓堆肥系统 × 7种处理 × 9个时间点 × 3个重复)的数据集生成与处理;基于阳离子交换容量(CEC)、碳氮比(C/N)和胡敏酸(HA)含量三个关键指标,采用80%阈值法对样本进行“成熟”与“未成熟”的二元分类,构建机器学习分析的目标变量;系统评估了随机森林(RF)、逻辑回归(LR)、决策树(DTC)、高斯朴素贝叶斯(GNB)、多项式朴素贝叶斯(MNB)、K近邻(KNN)、支持向量机(SVM)和AdaBoost分类器(ABC)这八种机器学习分类模型的性能;采用准确率(ACC)、精确率、召回率、F1-分数以及均方误差(MSE)、均方根误差(RMSE)和决定系数(R2)等指标,结合分层10折交叉验证和自助重采样法评估模型;并进行了特征重要性分析(包括置换特征重要性和SHAP值)以解释模型的预测依据。
2.1. 原材料与实验设置
研究以牛粪和羊粪为主要基质进行堆肥和蚯蚓堆肥。堆肥在隔热容器中进行,蚯蚓堆肥在塑料容器中进行并接种赤子爱胜蚓。所有混合物调整并维持其持水量的70 ± 10%。堆肥单元通过定期翻堆确保通气,蚯蚓堆肥则轻柔搅拌。系统在环境温度下维持120天。添加了三种改良剂:生物炭、耐火粘土(FC)和二氧化锰(MnO2),并设有不添加改良剂的对照处理。
2.2. 堆肥与采样程序
堆肥和蚯蚓堆肥过程均设置三次重复。在定义的9个时间点(0, 7, 14, 21, 30, 45, 60, 90, 120天)从每种处理中采集样品,以监测活跃堆肥和成熟阶段的动态变化。样品经风干、轻度粉碎并过筛后进行后续分析。
2.3. 成熟度评估与机器学习的二元分类
通过分析堆肥质量指标(CEC、C/N比、HA/FA比和微生物呼吸)的时间变化来建立客观的成熟度参考。将三次重复样品在每个时间点取平均以减少噪声,得到252个有效观测值。将稳定操作定义为连续间隔间相对变化<5%。基于此标准,超过80%的监测指标在第60天达到稳定,因此选择第60天作为模型开发的操作成熟时间。据此,堆肥和蚯蚓堆肥样品被二分为成熟(1)和未成熟(0)两类用于机器学习分析。
2.4. 机器学习模型选择
详细介绍了用于预测堆肥成熟度的八种机器学习分类算法,包括随机森林分类器(RFC)、逻辑回归(LR)、决策树分类器(DTC)、高斯朴素贝叶斯(GNB)、多项式朴素贝叶斯(MNB)、K近邻(KNN)、支持向量机(SVM)和AdaBoost分类器(ABC)。所有模型均使用交叉验证进行训练和评估。
2.5. 模型评估指标
应用了一套标准指标(准确率、精确率、召回率、F1-分数)来评估八种机器学习模型的分类性能。模型训练和评估采用分层10折交叉验证,数据集按80%/20%划分为训练集和测试集。所有输入变量使用最小-最大缩放法进行标准化。
2.6. 特征重要性分析
对训练好的机器学习模型进行了特征重要性分析,以获取可解释性并理解堆肥成熟度分类的潜在驱动因素。采用了基于基尼不纯度减少的模型特定重要性评分、置换特征重要性以及SHAP值分析。模型的稳健性和泛化能力通过分层10折交叉验证和自助重采样进行严格评估,并应用了决定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)等多种评估指标。
本研究的主要结论是,集成机器学习模型,特别是随机森林(RF)和AdaBoost,在预测基于CEC和C/N的堆肥成熟度类别时,表现出最高的预测准确性(高达0.98)和最低的误差率(例如,MAE < 0.05, RMSE < 0.1, R2> 0.95)。相比之下,基于HA的预测在所有模型中显示出略低的精确度和较高的方差。皮尔逊相关性和热图分析表明,CEC、HA、总氮(TN)和有机质(OM)含量之间存在强烈的相互依赖性,证实了它们在堆肥成熟度分类中的集体效用。特征重要性分析进一步揭示了关键预测因子(如腐殖化指数、C/N比、CEC)的生物学和化学相关性。
该研究的讨论部分强调了机器学习分类模型在堆肥成熟度评估中的巨大潜力,尤其是其处理非线性、多变量数据的能力。研究结果有助于开发更高效、可靠的堆肥质量智能管理决策支持工具。通过整合先进的机器学习分类技术与全面的堆肥数据集,这项研究提高了粪便基堆肥系统成熟度评估的准确性和效率,将为堆肥质量管理中更明智的决策提供支持,并促进在最小化环境影响的同时最大化农艺效益的智能化堆肥系统的发展。