《Algorithms》:Performance Analysis of Machine Learning Techniques in Predicting Maize Crop Yield: Case Study of Kayonza District—Rwanda
编辑推荐:
气候变化给全球农业带来重大挑战,导致粮食不安全并影响农村生计。玉米种植尤其易受极端天气影响,如强降雨、高温、土壤酸化、湿度和灌溉不足,这些因素降低了作物产量并引发对粮食安全的担忧。该研究旨在开发一种可靠且准确的机器学习方法,利用历史气候数据预测玉米作物产量,以
气候变化给全球农业带来重大挑战,导致粮食不安全并影响农村生计。玉米种植尤其易受极端天气影响,如强降雨、高温、土壤酸化、湿度和灌溉不足,这些因素降低了作物产量并引发对粮食安全的担忧。该研究旨在开发一种可靠且准确的机器学习方法,利用历史气候数据预测玉米作物产量,以促进决策。这使得农民和农学家能够基于过去数据进行适应性预测。研究使用了来自卢旺达气象局(Meteo Rwanda)的数据集以及卢旺达卡永扎区(Kayonza district)的玉米产量数据进行训练和测试。天气数据包括过去十三年的年平均温度、最高温度、最低温度、降雨量和土壤温度。研究人员使用随机森林回归器(Random Forest regressor)、极端梯度提升回归器(Extreme Boost regressor)、梯度回归(Gradient)、支持向量机(Support Vector Machine, SVM)和LASSO(Least Absolute Shrinkage and Selection Operator)等机器学习技术对数据进行了分析。结果表明,高产作物的开发依赖于对气候变量(尤其是温度和降雨量)的预测和整合。总体而言,随机森林(Random Forest)、支持向量机(SVM)和极端梯度提升(Extreme Boost)的表现优于LASSO,其R2值分别为0.957、0.955和0.953,而LASSO仅为0.256。
#### 研究背景与问题
全球人口预计到2050年将达98亿,气候变化导致粮食不安全和农村生计问题加剧。玉米种植对极端天气(如强降雨、高温、土壤酸化、湿度和灌溉不足)尤为敏感,产量下降引发粮食安全担忧。在卢旺达,气候变化已影响农业和民生,东部省份卡永扎区(Kayonza)在2008年玉米产量下降37%,2017年超过3000户家庭因长期干旱面临粮食不安全。尽管政府通过作物集约化计划推动玉米种植,但传统方法难以精准预测产量。因此,研究人员旨在开发基于历史气候数据的机器学习(Machine Learning, ML)方法,以准确预测玉米产量,辅助农民和决策者制定适应性策略。
#### 研究内容与结论
这篇发表在《Algorithms》上的论文利用卢旺达气象局(Meteo Rwanda)和卢旺达国家统计局(National Institute of Statistics of Rwanda, NISR)及卡永扎区农业办公室提供的13年(2011-2024年)气候数据(年平均温度、最高温度、最低温度、降雨量、土壤温度)和玉米产量数据(吨/公顷, t/ha),应用随机森林(Random Forest, RF)、支持向量机(Support Vector Machine, SVM)、极端梯度提升(Extreme Gradient Boosting, XGBoost)和LASSO(Least Absolute Shrinkage and Selection Operator)四种机器学习模型进行预测。通过5折交叉验证和R
2、RMSE等指标评估,发现RF、SVM和XGBoost表现优异(R
2分别为0.957、0.955和0.953),显著优于LASSO(R
2=0.256)。特征重要性分析表明降雨和温度是关键预测变量。该研究为小农户应对气候风险提供了实用工具,并验证了非线性集成方法在农业预测中的优势。
#### 关键技术方法
研究数据来源包括:Meteo Rwanda(气候数据)和NISR及卡永扎区(玉米产量数据)。数据预处理采用均值插补(连续变量)、众数插补(分类变量)处理缺失值,用四分位距法(IQR)剔除异常值,并通过Z-score归一化统一量纲。数据集按时间顺序以80:20比例划分为训练集(20个观测)和测试集(6个观测),并采用5折交叉验证增强模型鲁棒性。主要模型包括:随机森林(RF,集成决策树)、支持向量机(SVM,径向基核函数捕捉非线性关系)、极端梯度提升(XGBoost,基于梯度增强的优化算法)和LASSO回归(线性模型兼特征选择)。超参数调优使用网格搜索和随机搜索,评估指标包括R
2、均方根误差(RMSE)、均方误差(MSE)、归一化均方根误差(NRMSE)和归一化均方误差(NMSE)。
#### 研究结果
**3.1 预测结果**:通过5折交叉验证,随机森林(RF)、支持向量机(SVM)和极端梯度提升(XGBoost)的R
2值分别达0.957、0.955和0.953,RMSE分别为1.279 t/ha、1.311 t/ha和1.334 t/ha,表明预测值高度接近实际产量;而LASSO的R
2仅为0.256,RMSE高达5.302 t/ha,显示其无法捕获气候变量间的复杂交互。
**3.2 变量重要性**:
- **3.2.1 随机森林特征重要性**:降雨贡献44.4%,年平均温度27.6%,年最高温度12.6%,年最低温度15.1%,土壤温度仅0.3%,证实降雨和温度是玉米产量的主要驱动因素。
- **3.2.2 极端梯度提升特征重要性**:降雨38.8%,年最低温度29.9%,年最高温度15.5%,年平均温度11.5%,土壤温度4.3%,进一步强化了水热条件的主导作用。
- **3.2.3 性能评估**:RF误差最低(RMSE=1.279 t/ha, NRMSE=49.2%),SVM和XGBoost次之(NRMSE分别为50.4%和51.3%),LASSO表现极差(NRMSE=203.9%),说明非线性集成方法在处理农业生产中的复杂气候关系时显著优于线性回归。
#### 讨论总结
讨论部分指出,研究结果与现有文献一致:RF、SVM和XGBoost在作物产量预测中表现优异,而LASSO因无法处理非线性关系而失效。SVM在小样本数据中展示了良好的泛化能力,XGBoost则体现出对结构化数据的鲁棒性。然而,研究存在局限性:仅考虑了温度、降雨和土壤温度,未纳入土壤肥力、湿度、风速和辐射等因素;模型基于特定区域(卡永扎区)的历史数据,可能不适用于其他气候区域;且未纳入未来气候变化情景,限制了长期预测能力。
#### 研究结论翻译
本研究证明,玉米作物产量受气候条件和土壤温度等多因素影响。应用机器学习技术预测玉米产量,展现了其处理复杂交互、提升性能与适应性的能力。利用R
2、RMSE、NRMSE和NMSE等稳健评估指标,有助于选择最优机器学习模型。特征重要性分析揭示,降雨和温度变量对玉米生长贡献最大。交叉验证技术确保了模型的可靠性。结果表明,在提出的模型中,随机森林(Random Forest, RF)、支持向量机(Support Vector Machine, SVM)和极端梯度提升(Extreme Gradient Boosting, XGBoost)的表现优于LASSO模型,这凸显了非线性集成学习方法在处理复杂交互方面的优势。该研究对小农户具有启示意义,使其能够考虑气候变异相关的潜在风险并采取适当的缓解策略。尽管结果令人鼓舞,但需承认局限性:首先,气候变量集(温度、降雨和土壤温度)与其他因素(如土壤肥力、湿度、风速和辐射)相比,未被完整考虑,可能限制了模型的全面性;其次,受覆盖范围所限,该模型可能因不同气候条件而不适用于其他地区;最后,本研究仅基于历史数据,未考虑未来气候变化情景,这可能限制模型在长期预测中的能力。