基于基准模型引导的基于过程（Process-Based, PB）—深度学习（Deep Learning, DL）混合模型在美国大陆尺度径流预测中的见解研究

《Journal of Hydrology: Regional Studies》：Benchmark-guided insights into hybrid process-based-deep learning models for continental-scale streamflow prediction across the United States

【字体：大中小】 时间：2026年06月19日 来源：Journal of Hydrology: Regional Studies 4.7

编辑推荐：

　　研究区域：美国大陆（USA）。研究焦点：近期研究已探索了基于过程（Process-Based, PB）—深度学习（Deep Learning, DL）混合方法，但混合建模何时必要、能否系统性提升不同流域表现仍不明确。为此，研究人员提出一种基于基准模型（Ben

研究区域：美国大陆（USA）。研究焦点：近期研究已探索了基于过程（Process-Based, PB）—深度学习（Deep Learning, DL）混合方法，但混合建模何时必要、能否系统性提升不同流域表现仍不明确。为此，研究人员提出一种基于基准模型（Benchmark, BM）引导的评价框架，应用于531个美国流域。利用17个简单基准（BM）模型基于改进Kling-Gupta效率（modified Kling-Gupta Efficiency, modified KGE）建立流域特异性性能临界区间，超过基准者判定为具技巧（skilful），低于者为表现不佳（underperforming）。本研究识别了PB水文模型超越BM预期而深度学习即长短期记忆（Long Short-Term Memory, LSTM）模型相对BM预期表现不佳的流域，对此探究将PB模型输出的土壤含水量（Soil Moisture, SM）和/或径流量（Discharge, Q）融入LSTM架构能否改善径流模拟，旨在明确何种流域条件下PB-LSTM混合配置产生可度量性能增益及何种PB派生输入最有效。新水文见解：混合配置较独立LSTM有明显改善，近30%流域从一般（fair）提升至良好（good）性能等级。特征重要性分析表明PB派生SM通过改善水文记忆及地下动力学表征持续增强预测技巧。结果表明基准引导的混合化提供了系统化、可解释的策略以提升不同水文气候条件下数据驱动径流建模水平。

论文解读：基于基准模型引导的过程基—深度学习混合模型在美国大陆尺度径流预测中的见解研究

该研究发表于《Journal of Hydrology: Regional Studies》。当前水文模拟存在三类主流模型：基于过程（Process-Based, PB）的概念性水文模型、基于物理（Physics-Based, PHB）模型及机器学习（Machine Learning, ML）模型。PB模型具物理可解释性但依赖参数率定且可能简化关键过程；深度学习尤其是长短期记忆（Long Short-Term Memory, LSTM）网络能捕捉非线性时序依赖，但在部分流域表现不稳定且缺乏物理一致性；已有混合PB-DL研究多在少量流域验证，未系统阐明混合必要性及大尺度适用性，且缺乏基准（Benchmark, BM）模型对照评估真实技巧。为此研究人员以美国CAMELS数据集531个流域为对象，构建基准引导框架筛选PB优于BM而LSTM不及BM的流域，将PB模型输出的土壤含水量（Soil Moisture, SM）与模拟径流（Discharge, Q）作为附加输入构建混合LSTM，系统评估混合配置增益及适用条件。

主要关键技术方法：

采用CAMELS-US数据集531个自然流域1980–2010年日气象强迫（Daymet降水、气温、水汽压、太阳辐射）与实测径流；选用三款PB模型——GR4J（Génie Rural à 4 paramètres Journalier）、HBV（Hydrologiska Byr?ns Vattenbalansavdelning）、SAC-SMA（Sacramento Soil Moisture Accounting），以遗传算法按modified KGE率定；构建独立局部LSTM（气象因子输入，窗口365 d，dropout 0.1，Adam优化）；应用Knoben(2024)提出的17种简单BM模型计算各流域最高modified KGE及±0.1σ临界区间定义技巧阈值；对PB>BM_Max且LSTM< />_Min流域构建三种混合LSTM——LSTM-SM（加PB-SM）、LSTM-Q（加PB-Q）、LSTM-SMQ（加PB-SM+Q）；以modified KGE为评价指标；采用随机森林Gini重要性及SHAP（SHapley Additive exPlanations）分析输入贡献与流域属性影响。

4. Results（结果）

4.1. Model performance study（模型性能研究）

4.1.1. BM models performance（基准模型性能）： 17个BM模型中月降雨—径流比至日尺度、日降雨—径流比及比例降水基准表现较好，年均值/中位数流较差。取各流域17个BM中最高modified KGE为BMKGE，以±0.1σ（σ为17个BM的KGE标准差）划定临界范围。约80个流域BM KGE>0.77（优秀），西北区BM表现突出，表明降水—径流关系稳定时简单BM即可较好模拟。

4.1.2. PB and DL model performance（PB与DL模型性能）： GR4J、HBV、SAC-SMA与LSTM经modified KGE率定验证。校准期四者分别有87%、84%、73%、86%流域超BM_Max，验证期分别为75%、72%、78%、64%；验证期未达BM_Min比例分别为14%、16%、11%、20%。空间上PB在东北、东南优于LSTM，LSTM在北落基山—平原及西南优于PB；SAC-SMA在东南略优，GR4J/HBV在东北略优，说明模型—流域匹配重要性。

4.2. Hybrid models（混合模型）： 筛选SAC-SMA>BM_Max且LSTM< />_Min共69流域，GR4J、HBV分别有79、66流域符合条件（去重后共99独特流域）。对SAC-SMA子集：独立LSTM中36.2%为good、52.2%为fair、10.1%为poor；Hybrid 1（LSTM-SM）使good升至72.5%，poor降至4.3%；Hybrid 2（LSTM-Q）使good升至53.2%，poor降至0；Hybrid 3（LSTM-SMQ）使good升至73.9%，poor大幅减少。GR4J与HBV混合呈相似规律。证明向LSTM注入PB-SM与PB-Q可显著弥补纯数据驱动模型在水文过程表征上的不足。

4.3. Selection of optimal hybrid combination for enhanced streamflow simulation（优选增强径流模拟的混合组合）： 99个独特流域中Hybrid 1最优占30（高基流指数、高黏土含量，SM主导补给），Hybrid 2最优占15（高砂含量、陡坡、高FDC斜率、高土壤导水率，快速流主导），Hybrid 3最优占52（高最大持水量、高降水频次，存储与快速流均重要）。表明可据流域属性选择最适混合方案。

4.4. Feature importance analysis for determining predictors for the enhanced performance by the hybrid model（混合模型性能提升因子特征重要性分析）： 随机森林Gini重要性显示SAC-SMA输出Q最重要，其次降水、SAC-SMA SM；GR4J/HBV亦显示PB-SM、PB-Q及气温为重要预测因子。SHAP分析表明土壤导水率、平均坡度、干旱度、砂/黏土分数为影响混合模型modified KGE的关键流域属性——较高土壤导水率与砂分数、较低干旱度与黏土分数关联更优性能。典型流域时序图证实混合模型较独立LSTM更好捕捉洪峰与枯水。

5. Discussion（讨论）与6. Conclusions（结论）：

前人混合研究缺流域级基准参照致改进是否超越基线不明。本研究引入BM临界区间判定技巧性，且只在LSTM不及BM而PB超BM时混合，避免不必要复杂度。混合增益多见于湿润、基流主导、高土壤储水能力流域——纯气象驱动LSTM难表征地下存储释放非线性，PB派生SM（水文记忆）与Q（过程态变量）补入提供物理意义中间变量，使LSTM更好学习降水—径流非线性转换。SHAP与特征重要性佐证PB-SM及PB-Q为关键增益因子。研究主张依基准引导框架甄别需混合流域，依流域属性选Hybrid 1/2/3，实现过程感知的大样本径流模拟提升。

结论翻译：本研究提出基准引导的混合建模框架，融合PB水文模型与DL方法以提升跨流域径流预测与可解释性。以17个BM模型按modified KGE建立临界区间客观评价PB与DL模型相对表现。对独立LSTM modified KGE低于BM_Min流域，将PB模型关键输出特别是SM与Q纳入LSTM架构获显著改善，近三分之一表现不佳流域从一般（fair）升至良好（good）等级，证实数理有意义状态量嵌入DL框架可同步提升精度与水文真实性。Hybrid?1最适高基流指数与高黏土分数流域（SM主导），Hybrid?2最适高砂分数、陡坡、高FDC斜率与高土壤导水率流域（快速流主导），Hybrid?3最适高最大持水量与高降水频次流域（存储与快速流并重）。总体而言PB与混合模型优势见于湿润基流主导且独立LSTM欠佳区；特征重要性确认降水为第二主导预测因子，但在强存储控制流域PB派生SM与Q为驱动增益之关键预测因子。基准引导混合方法为识别欠佳区域、增强模型移植性与可解释性提供了系统化框架。

热点排行