土壤湿度是全球气候观测系统确定的核心关键气候变量,也是地表状况的关键指标。它在许多实际和科学应用中都具有重要意义,特别是在农业和水文学领域(Du等人,2024年)。在农业系统中,土壤湿度调节种子发芽和作物生长,影响养分循环,并支持土壤生物活动和生物多样性(Kashyap和Kumar,2021年)。在水文和大气过程中,土壤湿度异常会改变蒸散作用以及热量和水分向低层大气的传输,从而影响边界层的发展和夏季的对流降雨。持续的异常情况会加剧水文极端事件,增加干旱和洪水的风险(Saini等人,2016年)。土壤湿度还影响土壤结构和凝聚力,进而控制侵蚀抵抗力和颗粒脱落的敏感性(Moragoda等人,2022年)。
在过去的几十年中,土壤湿度预测主要依赖于基于过程的方法,包括利用地形、土壤特性和植被信息来表示土壤水分动态的土地表面和水文模型(Fatichi等人,2016年)。广泛使用的例子包括用于连续流域模拟的土壤和水资源评估工具(SWAT)(Arnold等人,1998年)、用于非饱和带水分、溶质和热量传输的HYDRUS(?im?nek等人,2008年),以及用于地下水流动和耦合土壤湿度过程的模块化地下水流动模型(MODFLOW)(Harbaugh,2005年)。除了预测功能外,这些模型还编码了来自物理学、化学和生物学的机制理解,有助于解释水文行为和陆地-大气耦合(Savenije,2009年;Lan等人,2020年)。持续的发展引入了改进的参数化方法,更好地表示非线性相互作用,增强了模拟的逼真度和过程洞察力。
最近计算资源和数据可用性的增长加速了机器学习和深度学习在水文预测中的应用。这些方法直接从观测数据中学习关系,可以减少对传统建模中显式假设的依赖。传统的机器学习方法,包括支持向量机(Ahmad等人,2010年;Gill等人,2006年)、随机森林(Schoppa等人,2020年;Yu等人,2017年)和多元线性回归(Van Loon和Laaha,2015年)已被广泛应用,但与现代深度学习模型相比,它们在表示空间和时间上的复杂非线性动态方面能力有限。
然而,纯粹数据驱动的深度学习在超出训练分布进行外推时可能会产生违反物理约束或行为不现实的预测(Tripathy和Mishra,2023年)。这促使人们发展了物理指导的深度学习方法,通过将物理定律(如质量和能量守恒)加入损失函数来提高真实性和泛化能力。一种方法是在损失函数中添加物理定律,以促进一致性并减少对稀疏数据的敏感性(Cuomo等人,2022年;Liu等人,2024年;Lucor等人,2021年;Xie等人,2021年)。在实践中,调整物理惩罚和数据不匹配的相对权重可能会使优化变得复杂,并且如果约束设定不准确或观测数据包含偏差,可能会降低性能(Jin等人,2021年;Krishnapriyan等人,2021年)。另一种方法是通过专门的层或操作符将约束直接嵌入网络中(Kashinath和Marcus,2020年;Daw等人,2020年;Hoedt等人,2021年)。虽然这种方法可以提高可解释性,并且在处理湍流等复杂系统时效果良好(Chen等人,2023年;Jia等人,2021年;Wang等人,2020年),但它通常依赖于准确的先验知识,并且设计和实施需要大量工作。
混合物理指导的深度学习通过使用来自过程模型的物理意义变量作为学习网络的输入,为基于约束的方法提供了一种实用的替代方案。这种基于特征的策略可以简化模型设计,同时提高与目标过程的相关性和整体预测能力(Colombo等人,2021年;Deng等人,2024年;Sayed等人,2024年)。它在流量和洪水预测方面特别成功,其中特征整合方法已成为广泛使用的基准。例如,Wei等人(2024年)对长短期记忆(LSTM)网络和Hydrologiska Byr?ns Vattenbalansavdelning(HBV)模型之间的耦合机制进行了比较研究,发现特征整合架构是日常流量模拟的稳健基线。同样,Yu等人(2023年)证明,在半干旱的中国黄土高原地区,将LSTM与HBV结合使用显著提高了预测能力,有效克服了独立物理模型在数据稀缺区域的局限性。在极端事件背景下,Tanhapour等人(2025年)开发了一个集成的HBV-LSTM框架来量化极端洪水预测的不确定性,报告了在亚日时间尺度上捕捉峰值流量的卓越能力。除了水文学之外,类似的方法在湿地制图和地震事件分类等应用中也提高了性能(Kong等人,2022年;O’Neil等人,2020年)。这些结果共同推动了将基于特征的混合框架扩展到全球土壤湿度预测。
为了充分利用这些基于物理的输入进行时间序列预测,网络架构必须捕捉长期时间依赖性并区分不同预测因素的影响。LSTM网络因其能够处理噪声时间序列并在较长时间内保留信息而被广泛用于地球物理序列。最近的研究表明,将LSTM与编码器解码器结构和注意力机制结合使用,可以通过学习更具信息量的表示并赋予最相关的时间步和特征更高的权重来进一步提高性能(Li等人,2022年;Suleman和Shridevi,2022年;Li等人,2024年;Nath等人,2024年)。基于注意力的序列模型在大型预测系统中变得普遍,包括Pangu Weather、MetNet和ClimaX(Bi等人,2023年;Nguyen等人,2023年;S?nderby等人,2020年)。
尽管取得了进展,全球土壤湿度预测仍然具有挑战性。土壤湿度对气象强迫的响应受到气候制度、土壤和植被的强烈影响,许多物理模型仍然难以在大规模上表示这种异质性(Fathololoumi等人,2021年;Han等人,2023年;Heistermann等人,2021年;Vergopolan等人,2022年)。当要求从有限或噪声较大的观测数据中学习这些复杂相互作用时,纯粹数据驱动的深度学习也可能欠拟合(Bennett等人,2024年;Xie等人,2024年;Yao等人,2023年)。因此,需要一种既能整合过程知识又能保持全局应用所需灵活性的模型结构。
为了满足这一需求,我们提出了AEDLSTM-HBV,这是一种用于全球土壤湿度预测的混合物理深度学习框架。该模型将HBV水分平衡模型的诊断变量作为额外输入,提供与过程相关的背景信息,以弥补纯粹数据驱动学习中缺失的物理信息。然后,它使用基于注意力的编码器解码器LSTM来捕捉气象驱动因素、HBV派生特征和土壤湿度之间的非线性关系,从而提高预测能力,同时保持对大空间范围的可扩展性。
我们的贡献如下:
1.我们量化了HBV过程特征的贡献,并评估了它们在深度学习模型中的相关性。
2.我们使用梯度加权类别激活映射来研究网络如何利用HBV特征,从而了解它们在预测机制中的作用。
3.我们开发了一种基于注意力的编码器解码器LSTM架构,增强了模型表示复杂水文气候输入中非线性相互作用的能力。
本文的其余部分安排如下。第2节描述了数据集。第3节介绍了AEDLSTM-HBV架构和评估指标。第4节比较了LSTM、编码器解码器LSTM和基于注意力的编码器解码器LSTM模型,并评估了有无HBV派生输入时的性能。我们还研究了AEDLSTM-HBV相对于LSTM-HBV和没有HBV特征的注意力模型的空间和时间行为,以分离所提出架构和基于物理的输入的优势。第5节总结了主要发现和结论。