: 基于可解释机器学习优化中国黄土高原梯田空间布局:特征驱动与适宜性制图

《International Soil and Water Conservation Research》:Spatial prioritization of terrace construction on the Chinese Loess Plateau using interpretable machine learning

【字体: 时间:2026年03月19日 来源:International Soil and Water Conservation Research 7.3

编辑推荐:

  为应对大规模梯田建设中因规划不当导致的弃耕和退化问题,本研究集成水文、地形、土壤、流域形态和社会经济等22个特征,利用XGBoost算法和SHAP、PDP等可解释机器学习技术,构建了黄土高原梯田建设适宜性评价框架。研究识别出约578万公顷高度适宜区域,其中247万公顷尚未开发,主要为草地和耕地,为黄土高原及类似地区的梯田规划与可持续流域管理提供了科学依据。

  
在全球的丘陵山区,梯田是一种古老而关键的农业和水土保持实践,通过沿等高线修建,旨在提高土地生产力并控制水土流失。黄土高原(CLP)作为世界上水土流失最严重的地区之一,自20世纪50年代以来进行了大规模的梯田建设,形成了世界上最广阔的梯田景观之一。然而,由于缺乏科学的规划,许多已建梯田因立地条件不佳而遭到弃耕或退化,造成了巨大的资源浪费和环境风险。与此同时,随着人口增长和对耕地需求的持续增加,如何科学地选择未来梯田的建设地点,避免重蹈覆辙,并最大化其农业与生态效益,成为了一个紧迫的挑战。传统方法依赖专家判断和实地调查,不仅耗时耗力,且在大尺度应用中存在主观性强的问题。因此,亟需一种数据驱动的、客观的框架来指导梯田建设的空间优先序划分。
为了解决上述问题,研究人员在《International Soil and Water Conservation Research》上发表了一项研究。他们旨在开发一个基于机器学习的数据驱动框架,用于黄土高原的梯田选址。该研究有三大目标:比较不同机器学习算法在识别梯田建设适宜区方面的有效性;阐明影响梯田建设适宜性的关键特征及其作用机制;在整个黄土高原范围识别未来梯田建设的适宜区域。为此,研究团队基于广泛的实地调查,构建了一个包含水文、地形、土壤、流域形态和社会经济条件5大类共22个特征的空间数据库。研究比较了逻辑回归(LR)、随机森林(RF)、提升回归树(BRT)和极限梯度提升(XGBoost)四种机器学习算法。为了理解特征如何影响适宜性并量化其边际效应,研究应用了可解释机器学习技术,包括SHapley Additive exPlanations (SHAP)和部分依赖图(PDP)。最终,利用性能最佳的模型对整个黄土高原约7.11亿个30米分辨率像元进行分类,生成梯田建设适宜性地图,并叠加坡度、自然保护区、森林和湿地四个约束图层进行空间掩膜,以确保规划符合国家生态保护红线政策。
研究人员在技术方法上主要运用了以下关键手段:首先,通过广泛的实地调查(2017-2025年)和高分辨率遥感影像,筛选出符合国家标准(长度≥100米,宽度≥5米)且作物产量潜力高的“高质量梯田”作为机器学习的正样本。其次,构建了包含22个特征的多源空间数据库,所有数据统一处理至30米空间分辨率,并使用方差膨胀因子(VIF)分析处理了多重共线性问题。第三,采用网格搜索交叉验证优化了四种机器学习分类器(LR, RF, BRT, XGBoost)的超参数,并利用混淆矩阵和受试者工作特征曲线(ROC)下的面积(AUC)等指标评估模型性能。第四,利用SHAP和PDP技术对最佳模型进行解读,量化各特征的贡献并可视化其边际效应。最后,基于最佳模型预测全区域的适宜性概率,并利用Jenks自然断点法将结果分为五个适宜等级。
3.1. ML算法比较与性能分析
研究结果表明,XGBoost算法在多项评估指标上均优于其他模型。在独立测试集上,XGBoost的总体准确率最高,达到89.1%,其AUC值也最高,为0.96,显示出优异的分类判别能力。相比之下,BRT、RF和LR的总体准确率分别为82.7%、76.7%和69.9%,AUC值分别为0.91、0.85和0.76。混淆矩阵分析进一步显示,XGBoost具有最高的真正率(TPR, 92.4%)和最低的假正率(FPR, 14.0%),表明其在识别适宜区域和排除不适宜区域方面均表现最佳。
3.2. 梯田建设适宜性的特征贡献与影响机制
通过SHAP和PDP对XGBoost模型进行解读,揭示了影响梯田建设适宜性的关键因素及其作用机制。平均年降水量(AAP)是最具影响力的特征,其后依次是流动力指数(SPI)、人均GDP、潜在蒸散量(PET)、地形湿度指数(TWI)、距道路距离(DFR)、人口密度(PD)和表层土壤水分(SSM),这前8个特征贡献了超过60%的相对重要性。PDP分析展示了特征的边际效应:适宜性概率在年降水量超过约300毫米后急剧增加;PET和人均GDP整体呈负向影响,当人均GDP超过约25,000元人民币、PET超过约850毫米时,适宜性显著下降;SPI、TWI和SSM则表现出明显的非线性关系,适宜性在中间值范围内达到峰值(如SPI在4-6之间);适宜性在距离道路约1000米范围内最高;人口密度在达到约250人/平方公里后,对适宜性的正向影响趋于稳定。
3.3. 黄土高原梯田建设适宜区
应用优化后的XGBoost模型对整个黄土高原进行预测,并结合约束条件进行掩膜,生成了梯田建设适宜性地图。结果显示,约578万公顷的区域被评定为高度适宜(包括高适宜和极高适宜),这些区域主要集中分布在高原沟壑区(Region I)、黄土丘陵沟壑区(Region II)以及土石山区(Region IV)的陇东、宁南和晋西部分地区。其中,约247万公顷为尚未开发的高适宜潜力区,土地利用类型以草地(58.6%)和耕地(41.2%)为主,具有巨大的梯田建设潜力。空间验证表明,预测的高适宜区与现有梯田数据库有331万公顷的重叠,占总预测高适宜区面积的57.3%,证实了模型的可靠性。实地调查和利益相关者访谈也进一步支持了研究结果的合理性与现实可行性。
本研究通过系统比较,确立了XGBoost算法在黄土高原梯田建设适宜性评价中的优越性能。利用XGBoost-SHAP框架,研究深刻揭示了梯田适宜性主要受水资源可得性(高AAP、高SSM、低PET)、地形稳定性(适中的SPI和TWI)和社会经济条件(低人均GDP、高人口密度、邻近道路)共同调控的机制。这突破了传统农业用地评价偏重土壤和气候的局限,构建了更全面的评估框架。最终,研究不仅识别出黄土高原上约578万公顷的高度适宜区,更关键的是指出了其中247万公顷尚未开发的潜力土地,这为落实《全国水土保持规划(2015-2030年)》中到2030年新增260万公顷梯田的目标提供了直接、精细的空间指引。这项工作提出的数据驱动框架,结合了可解释机器学习技术,显著提升了梯田空间规划的客观性、透明度和科学性。其方法论具有可移植性,通过调整特征变量和重新训练模型,可为全球其他面临类似梯田规划与生态恢复挑战的丘陵山区提供宝贵的经验借鉴,从而推动可持续的流域管理和粮食安全保障。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号