《Journal of Hydrology: Regional Studies》:Analogue-based reconstruction of hydrological forcing for modelling in data-scarce regions: Application to the Volta River Basin
编辑推荐:
本研究评估了基于相似性的数据驱动重建方法是否能够在缺乏观测数据的情况下提供可靠的分布式蒸散发(ET)场。研究人员采用加权k近邻(k-Nearest Neighbours, kNN)框架,通过识别降水和温度相似日及其相关水文响应来重建日蒸散发。该方法以ERA5-
本研究评估了基于相似性的数据驱动重建方法是否能够在缺乏观测数据的情况下提供可靠的分布式蒸散发(ET)场。研究人员采用加权k近邻(k-Nearest Neighbours, kNN)框架,通过识别降水和温度相似日及其相关水文响应来重建日蒸散发。该方法以ERA5-Land再分析数据作为气候预测因子,以GLEAM参考蒸散发数据作为目标变量进行应用。重建场通过交叉验证进行评估,并作为完全分布式中尺度水文模型(mesoscale Hydrologic Model, mHM)的校准目标。研究还测试了完全合成气象强迫以评估方法的稳健性。研究区域为西非沃尔特河流域,该地区数据稀缺,可靠的水文建模受到短期且不一致的现场观测记录的限制。新水文认识表明:相似性重建能够再现蒸散发的季节循环、年际变异性和空间结构,平均误差约为0.4 mm·day-1。受重建蒸散发约束的水文模拟与参考数据约束的模拟高度吻合,并保留了主导水文动态,尽管洪峰流量略有平滑。这些结果表明,相似性重建可为数据稀缺地区提供物理一致的蒸散发校准目标和水文强迫,支持无直接观测时期的水文模拟。
研究背景与问题
水文建模对于理解和管理水资源至关重要,特别是在面临气候变化、水资源短缺、农业用水需求增长以及数据可用性有限等多重挑战的地区。然而,全球许多地区的现场观测站点过于稀疏,无法充分捕捉水文过程的空间和时间变异性。虽然卫星遥感技术能够提供详细且空间连续的地球观测数据,可用于分布式水文模型的校准,但许多卫星和再分析产品仍受限于时间序列较短、覆盖不一致或分辨率较粗等问题,特别是在某些数据稀缺地区。这引发了一个关键科学问题:在缺乏观测数据的情况下,合成的、数据驱动的重建能否为完全分布式水文模型提供可接受的水文强迫数据?
现有通过生成合成数据填补时间空白的方法主要依赖深度生成模型,如生成对抗网络(Generative Adversarial Networks, GANs)和扩散模型。尽管这些方法功能强大,但通常需要大量训练数据和计算资源,且可能产生物理不一致的输出或在观测条件之外进行外推。另一种避免外推风险的简单替代方案是相似性方法(analogue approach),该方法最初由Lorenz于1969年提出,广泛应用于气候科学中以重建大气状态。然而,尽管相似性方法在大气科学中应用广泛,但据研究人员所知,其生成适用于基于过程的建模的水文变量的能力尚未得到评估。
研究内容与方法
研究人员将相似性框架扩展应用于水文数据集,聚焦于蒸散发(ET)、降水和温度,旨在评估这种重建能否再现水文过程的空间和时间动态,并在观测不可用或不完整时作为水文模型的可靠强迫数据。研究以西非沃尔特河流域(Volta River Basin, VRB)为试验区域,该地区数据稀缺且气候驱动的降水和蒸散发快速变化,产生了重大水文不确定性。
研究采用的关键技术方法包括:(1)加权k近邻(kNN)算法框架,用于从历史气候条件中重建日蒸散发场;(2)两种距离度量方法的比较:简单平均绝对izational 绝对误差(Mean Absolute Error, MAE)距离和结合有界空间模式误差指标(bounded Spatial Pattern Error Metric, bSPEM)与Hellinger距离的复合距离;(3)气候窗口(Climate Window, CW)设计,考虑目标日期前T天的气候条件以表征前期气候效应;(4)贝叶斯优化用于预测因子权重和子成分权重的校准;(5)交叉验证策略,采用每隔五年保留验证的方法;(6)完全分布式中尺度水文模型(mHM)作为独立验证平台,采用动态定维搜索(Dynamically Dimensioned Search, DDS)算法进行53个全局参数的校准;(7)多目标函数优化,同时考虑径流和蒸散发的空间一致性。
样本数据来源方面,气候预测因子采用ERA5-Land再分析数据(日降水和最高、最低温度),目标变量采用GLEAM实际蒸发数据。水文模型所需降水数据来源于CHIRPS数据集,温度数据来源于WFDEI强迫数据集。径流观测数据来自Dembélé(2019)汇编的沃尔特河流域81个测站中经过筛选的11个代表性测站。
研究结果
交叉验证实验:通过比较MAE距离(Δ
MAE)和复合距离(Δ
C),研究人员发现增加距离公式的复杂性仅能边际改善重建精度。最优超参数组合方面,Δ
MAE对应气候窗口长度T=4天、近邻数k=25;Δ
C对应T=1天、k=25。复合距离虽然使降水和最高温度权重增加,但整体误差仅从0.868降至0.799,考虑其显著增加的计算成本和复杂性,这一改进并不具备实际优势。日蒸散发重建的平均均方根误差(Root Mean Square Error, RMSE)约为0.4 mm·day
-1,相对误差约20%。误差呈现明显季节模式:雨季(4-10月)因降水和温度时空变异性强而误差较大,干季气候条件均一则重建效果更好。合成图像比真实数据更平滑,极端值被低估。空间上,平均绝对误差(Mean Absolute Error, MAE)呈南北梯度,南部湿润区误差较大;平均相对误差(Mean Relative Error, MRE)则相反,北部干旱区因蒸散发绝对值低而相对误差更高。
水文重建实验:在1999-2005年观测期内,研究人员开展了三组mHM模拟实验。使用观测蒸散发校准模型的平均纳什效率系数(Nash-Sutcliffe Efficiency, NSE)为0.528,使用合成蒸散发的平均NSE为0.511,两者高度接近,表明相似性重建蒸散发保留了径流模拟所需的水文信息。完全合成强迫实验(降水和温度均由相似性方法生成)的平均NSE达到0.616,与参考运行相当甚至个别站点更高,证明了合成数据集的内部一致性。
水文后报实验:将方法应用于重建至1965年的长期历史数据,驱动1966-1980年期间的水文模拟。结果显示模型能够再现大多数站点的年际变异性和季节性径流特征,平均NSE为0.522。季节峰值和低流量时期的时间一般被很好捕捉,说明重建强迫保留了水文情势的主导时间结构。但洪峰流量常被低估或高估,反映了相似性聚合固有的平滑效应,这一局限性在平均流量较小的测站更为明显。
讨论与结论
研究人员讨论了距离度量复杂性与性能收益之间的权衡关系。bSPEM和Hellinger距离的复合距离虽然概念上更稳健,整合了空间模式和分布相似性,但实际收益有限。校准权重显示最低温度是主导预测因子,最高温度和降水作用次之,这与沃尔特河流域热带气候以能量限制为主的特征一致。合成蒸散发的平滑特性导致极端值低估,但并未严重影响整体模型性能。完全合成强迫实验 surprisingly 良好表现揭示了相似性框架的内部一致性,但同时也需谨慎解读,可能部分反映了水文模型内部的误差补偿。
研究结论指出,基于相似性的方法为数据稀缺地区生成水文强迫数据提供了一个简单、可解释且计算高效的框架。加权kNN算法能够生成物理一致、水文信息完整的蒸散发场,其性能与观测数据相当。简单MAE距离在性能与计算效率间取得了最佳平衡。该方法不仅可用于缺失数据填补,还可作为替代性水文强迫源扩展模型输入的时间覆盖范围。未来工作可探索自适应相似性搜索策略、季节性或状态依赖的相似性窗口,以及与机器学习组件的混合框架。该框架具有灵活性和可迁移性,可扩展至其他水文变量和区域,也可结合偏差校正气候模式作为预测因子用于气候变化情景下的水文预测。