面向多源数据集的30 m土壤水分估算物理约束型数据驱动框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Hydrology: Regional Studies》：A physics-informed data-driven framework for 30m soil moisture estimation from multi-source datasets

【字体：大中小】 时间：2026年06月19日 来源：Journal of Hydrology: Regional Studies 4.7

编辑推荐：

　　研究区域为中国河北省河北平原。研究重点在于：高精度、高分辨率土壤水分（SM）估算对于田块尺度水文建模、农业管理和气候研究至关重要，但当前方法仍受限于原位观测稀疏以及卫星产品空间分辨率较粗。为解决这些挑战，本研究通过时空数据融合与机器学习模型整合多源数据集，构建

研究区域为中国河北省河北平原。研究重点在于：高精度、高分辨率土壤水分（SM）估算对于田块尺度水文建模、农业管理和气候研究至关重要，但当前方法仍受限于原位观测稀疏以及卫星产品空间分辨率较粗。为解决这些挑战，本研究通过时空数据融合与机器学习模型整合多源数据集，构建了一个稳健的物理约束型数据驱动框架，用于估算30 m分辨率下0–10 cm土壤水分。新的水文学见解如下：所提出框架包含三项关键方法学进展。首先，为弥合空间分辨率差距并保证输入数据质量，研究人员系统评估了4种时空数据融合算法，识别出增强型时空自适应反射率融合模型（ESTARFM）在保持30 m分辨率地表反射率与地表温度光谱—空间一致性方面表现最优，在多数城市均获得最高相关系数r以及最低均方根误差（RMSE）、EDGE和局部二值模式（LBP）值。其次，研究人员构建了一个混合特征集，将具有物理可解释性的指数，如温度植被干旱指数（TVDI），与多源再分析数据和地形数据耦合，并通过多重共线性诊断确保预测因子集合高效可用。第三，借助Optuna驱动的自动化超参数优化，研究人员对10种机器学习算法进行了基准比较，发现随机森林（RF）表现最为稳健；相对于原位土壤水分观测，其r为0.921，决定系数（R²）为0.835，RMSE为2.512%，偏差（Bias）接近于0（?0.041%）。最终生成的30 m土壤水分制图能够有效解析精细尺度景观异质性。总体而言，本研究提供了一个稳健、可扩展且可直接应用的机器学习（ML）土壤水分高时空分辨率产品生成框架，可为复杂农业景观下区域水资源管理和干旱监测提供重要支持。

论文发表于《Journal of Hydrology: Regional Studies》，聚焦于河北平原30 m分辨率表层土壤水分（SM）高精度估算问题。研究背景在于，土壤水分是陆气相互作用系统中的关键状态变量，直接影响降水入渗、地表径流分配、蒸散发、能量交换以及水文与陆面模型模拟能力，在干旱评估、灌溉调控和天气气候预测中具有基础意义。然而，传统原位观测虽精度高，却存在站点稀疏、维护成本高、难以支撑区域长期连续分析等局限；被动微波、主动微波、光学和热红外遥感以及再分析资料虽各具优势，但普遍受到空间分辨率粗、时间分辨率不足、受云影响显著或局地异质性表征不足等问题制约，难以满足田块尺度精细化监测需求。现有降尺度与融合方法虽已取得进展，但多数仍只能提供1–5 km尺度产品，且辅助变量之间常存在强共线性，纯数据驱动模型又缺乏物理约束，限制了模型可解释性与泛化能力。因此，开展融合物理认知与数据驱动优势的高分辨率土壤水分估算研究具有明确必要性。

研究人员围绕“数据融合策略—特征构建—模型优选”构建了一套混合型框架。研究首先针对土壤水分反演需求，对4种时空融合算法进行系统评价，以获得30 m分辨率地表反射率与地表温度（LST）高质量输入；随后构建同时包含遥感、再分析、地形及物理干旱指数的混合预测变量体系，并通过相关性分析和方差膨胀因子（VIF）诊断剔除冗余信息；最后在6组特征组合条件下，利用Optuna对10种机器学习模型开展超参数优化与性能对比。研究结果表明，增强型时空自适应反射率融合模型（ESTARFM）在光谱一致性与空间异质性保持方面总体最优；在模型层面，随机森林（RF）在不同特征组合下表现最稳健，在测试集上取得r=0.921、R²=0.835、RMSE=2.512%、Bias=?0.041%的最优结果，显著优于SMAP L4与ERA5-Land原始土壤水分产品。该研究的重要意义在于提出了一个兼具物理可解释性、模型稳定性与区域可迁移潜力的30 m土壤水分制图方案，为区域干旱预警、农业精细管理和水资源优化配置提供了技术基础。

作者开展研究所采用的主要技术方法可概括如下：以河北平原原位土壤水分监测站资料作为训练与验证基准样本，整合Landsat 8/9、MOD09GQ、SoilGrids 2.0、CHIRPS、CLCD、SRTM DEM、TRIMS、SMAP L4和ERA5-Land等多源数据；比较STARFM、ESTARFM、FSDAF和Fit-FC四类时空融合算法；构建包含LST、TVDI、SMAP、ERA5SM、降水、土壤质地、地形等变量的特征集合；采用随机搜索与Optuna结合的五折交叉验证方案，对CART、RF、XRT、GBM、XGBoost、LightGBM、CatBoost、SVR、KNN和MLP进行参数寻优，并通过bootstrap法评估不确定性。

在研究结果部分，论文首先报告“3.1. Evaluation of data fusion for land surface variables”。该部分通过对九个城市多组参考日期与预测日期影像进行比较，评估4种时空融合算法在地表反射率和LST重建中的表现。结果显示，Fit-FC容易产生块状效应并损失空间细节，STARFM和FSDAF存在色调不一致、光谱失真和模糊问题，尤其在LST上难以清晰区分耕地与不透水面；ESTARFM则在反射率与LST两类变量上均表现出与真实Landsat影像更高的一致性。无论从相关系数r、RMSE，还是EDGE与LBP所表征的边缘和纹理保持能力来看，ESTARFM总体最优，因此被确定为后续30 m地表变量生成的最终融合方法。该结果说明，面向土壤水分反演的时空融合算法评价不能仅关注光谱保真度，还需兼顾地表热力与空间结构细节。

其次，在“3.2. Selection of input features for soil moisture estimation”中，研究人员围绕15个候选自变量开展特征筛选。研究指出，即便树模型对多重共线性具有一定鲁棒性，若保留高度相关变量，仍会扭曲特征重要性分配并削弱物理解释能力。因此，研究将变量划分为静态变量与时间序列变量两类，先利用Pearson相关分析约束特征组合方式，再通过VIF迭代剔除高共线性变量。最终构建出6组优化特征组合，并嵌入3种背景土壤水分情景，即ERA5SM背景、ERA5SM+SMAP联合背景以及SMAP背景。该部分结论表明，经过约束后的混合特征体系能够在减少冗余的同时保留关键水文信息，为后续模型稳定训练提供基础。

接着，在“3.3. Optimization of models and input features”中，研究人员比较了10种机器学习模型在6组特征条件下的表现。“3.3.1. Hyperparameter tuning and evaluation”显示，经Optuna优化后，集成树模型整体优于SVR和MLP等模型，其中RF、GBM、XGBoost、CatBoost与LightGBM在不同特征组合下均表现出较高的R²与r，但RF稳定性最佳，跨特征组合波动最小。“3.3.2. Performance of soil moisture inversion models”进一步表明，原始SMAP L4与ERA5-Land产品与原位观测的一致性有限，前者存在明显负偏差，后者则倾向于高估；相比之下，机器学习反演显著提升了估算精度。综合测试集结果，随机森林在Feature 3条件下取得最佳平衡，其参数配置为`n_estimators=200`、`max_depth=12`、`max_features='log2'`、`criterion='squared_error'`、`min_samples_split=4`、`min_samples_leaf=2`，实现最高测试R²和最低测试RMSE，说明SMAP背景结合LST、RED、NIR、土壤质地、地形、降水、TVDI与ET的组合最有利于稳定预测。该结果证明，在多源环境变量支撑下，RF可有效挖掘复杂非线性关系，并显著修正粗分辨率背景产品误差。

在“3.3.3. Feature importance analysis”中，研究基于最优RF模型分析变量贡献。结果表明，LST和蒸散发（ET）重要性最高，说明地表热力状态与水分通量过程是控制土壤水分变化的主导因子；SMAP和TVDI也具有较高贡献，反映出粗分辨率微波土壤水分背景和物理干旱指数对模型预测具有直接支撑作用；RED和NIR呈中等重要性，表明植被与土壤光谱信息可提供辅助约束；土壤质地与地形变量虽贡献较低，但仍补充了局地水文和土壤物理属性信息。偏依赖分析进一步揭示，LST与土壤水分之间存在明显非线性关系，高温条件下土壤水分降低；ET与预测土壤水分呈正相关；SMAP与预测值单调增加；TVDI与预测值呈阶梯式负相关；RED和NIR则表现为L形负响应。该部分结果说明，RF不仅预测精度高，而且能够捕捉多源特征蕴含的复杂物理关系。

在“3.4. Spatial distribution of soil moisture”中，研究展示了邢台、衡水和秦皇岛三个区域的30 m土壤水分时空分布。结果显示，优化后的RF模型能够清晰区分耕地与建筑、道路等不透水面，体现出显著的精细尺度景观异质性。在邢台嘉家口镇，青银高速沿线出现较高土壤水分带，文中将其与道路两侧树木种植导致的较低地表温度相关联；在衡水大堤镇，模型能够响应2024-04-26降雨事件所引发的局地增湿与降温；在秦皇岛相关区域及部分冬季时段，模型识别出冷季低土壤水分特征，反映了降水减少、表层水分下渗以及冻结导致液态水减少的综合影响。该部分说明，所建框架不仅可以表达空间梯度，还能反映季节变化与短期水文事件响应。

讨论部分指出，本研究通过多源遥感变量、光谱指数与机器学习的结合，构建了兼具物理意义与统计学习能力的高分辨率土壤水分估算框架。借助RandomSearchCV与Optuna进行系统调参，避免了经验式人工调参带来的主观性，使各模型能够在相对最优参数条件下比较性能。通过对特征组合的物理约束化设计，研究在减少冗余信息的同时增强了模型训练效率、稳定性及环境变化条件下的泛化能力。在“4.1. Uncertainty analysis”中，研究利用bootstrap重采样1000次评估模型稳定性，标准差均值为1.308，中位数为1.222，最大值为4.003，大多数样本不确定性较低，说明RF总体稳健，但少数样本因地表复杂或特征信息不足而不确定性较高。在“4.2. Limitations and future perspectives”中，作者指出仍存在遥感变量与原位观测在时间、空间及探测深度上的不匹配问题，同时站点在空间上主要集中于研究区中部，可能引入样本分布偏倚。此外，基于MODIS的时空融合仍受云和降水污染影响，缺测重建误差可能进一步传播至反射率和温度融合结果，并增加土壤水分估算不确定性。未来工作建议引入基于深度学习的时间重建模型、微波数据与更丰富的时空信息，以提升极端事件下快速地表动态刻画和全天候高分辨率监测能力。

研究结论部分可概括并翻译如下：本研究构建了一套融合多源遥感变量、时空数据融合技术与系统化模型优化的30 m、0–10 cm土壤水分物理约束型数据驱动机器学习框架。该流程能够在不同区域和时段保持稳定估算性能，为提升高时空分辨率土壤水分估算提供了可操作且可扩展的解决方案。其一，针对性对比表明，ESTARFM在反射率与LST预测中均持续表现最优，相关系数普遍高于0.8，且RMSE最低，EDGE与LBP接近0，说明其在保持光谱一致性和空间异质性方面优势突出。其二，将TVDI等具有物理基础的指数与多源再分析和地形数据结合，形成了兼具计算效率和物理可解释性的混合特征体系；借助Optuna自动化超参数优化，最终识别出RF为最稳健模型，其r、R²、RMSE和Bias分别达到0.921、0.835、2.512%和?0.041%。其三，估算得到的土壤水分能够有效解析精细尺度景观异质性，区分耕地与不透水面，并反映季节性变干、降雨补给事件及冷季液态水减少等时序变化特征，说明该框架能够同时表征短期水文响应与更广泛的季节动力学。总体而言，该研究为气候敏感且空间异质性强的农业区开展区域干旱预警与可持续水资源配置提供了可靠技术基础，也为复杂农业景观中的高分辨率土壤水分监测提供了科学依据。

联系信箱：

粤ICP备09063491号

热点排行