长期、全面的空间气象数据集对于理解气候变异性、验证气候模型以及支持水文学、农业和生态系统研究等多种应用至关重要(Vicente-Serrano等人,2010年;Woldesenbet等人,2017年)。基于地面的日温度和降水量观测提供了不可替代的基线数据,用于检测气候变化信号、校准网格产品,并评估对生态和人类系统有意义的时间尺度上的影响(Daly等人,2008年)。然而,全球的运营气象站网络由于设备故障、维护期、站点搬迁和社会经济中断等原因存在数据缺失问题(Cerlini等人,2020年;Costa等人,2021年),这影响了数据的实用性,因此需要仔细的填补程序来确保连续的时间序列,以便进行稳健的统计分析和建模应用。
俄罗斯领土面积超过1700万平方公里,跨越十一个时区,包含从北极苔原到温带森林的各种气候类型,这为气象数据收集带来了特殊的挑战和机遇。广阔的领土和多样的地形导致气候的高度空间变异性,使得基于地面的观测成为捕捉局部条件的重要手段,而低分辨率的网格产品可能无法充分代表这些条件(Bulygina和Razuvaev,2012年)。Roshydromet网络自19世纪末以来一直在进行气象观测,全俄水文气象信息研究所-世界数据中心(RIHMI-WDC)是主要的档案存储机构。然而,截至近年来的公开可用数据集在填补数据空缺和详细的质量验证方面仍然有限。Bulygina和Razuvaev(2012年)编制的涵盖518个站点的数据集仅持续到2010年,鉴于此后北极地区的显著变暖和降水模式的演变,这成为一个重要限制。
填补数据空缺的方法必须平衡多个因素,包括空缺长度、空间相关结构和时间动态(Teegavarapu和Chandramouli,2005年;Lo Presti等人,2010年)。当邻近站点提供高质量的同时期数据时,空间插值技术(如逆距离加权法IDW和普通克里金法)对于短期中断表现良好(Simolo等人,2010年;Woldesenbet等人,2017年;Xu等人,2015年)。机器学习方法,特别是随机森林回归,可以整合时间模式、空间相关性和地形特征,用于中期缺失(Portuguez-Maurtua等人,2022年;Kumar和Varija,2024年;O’Sullivan和Kelly,2024年),而气候学方法则确保了长期中断情况下的数据一致性(Mwale等人,2012年;Hurtado等人,2021年)。高分辨率地形数据的整合通过捕捉海拔依赖的温度梯度和地形降水效应提高了数据填补的准确性(Daly等人,2008年;Thornton等人,2022年)。最近发布的FABDEM版本1-2是一种30米分辨率的全球裸地高程产品,其质量已被验证优于之前的DEM产品(Hawker等人,2022年;Dandabathula等人,2023年;Meadows等人,2024年),有助于更好地描述地形对局部气候的影响。
我们推出了RusWeather-GF(俄罗斯天气-数据填补),这是一个经过质量控制的、公开可获取的日温度和降水量数据集,涵盖了1980年至2023年间俄罗斯的593个气象站。该数据集解决了限制俄罗斯气候数据使用的关键实际问题。
通过Zenodo平台提供永久开放的访问权限,并分配了DOI,确保了数据的可靠性和不间断可用性,不受机构服务器基础设施的影响。数据集以标准CSV格式提供,无需特殊软件,便于立即整合到各种研究工作流程中。
所有缺失值——温度的1.62%和降水的1.80%——都是使用经过验证的三层方法填补的,从而实现了进行统计分析、趋势检测和模型驱动所需的100%完整时间序列。短期缺失(≤7天)采用邻近站点的逆距离加权法;中期缺失(8-30天)使用结合时间、空间和地形预测因子的随机森林回归法;长期缺失(>30天)则依赖特定站点的气候学数据。
关于质量控制程序、数据填补算法和验证结果的全面文档使用户能够评估数据适用于特定应用的适用性,并了解填补值的不确定性特征。使用59个分层站点进行的交叉验证显示,温度的RMSE为5.02°C(R2 = 0.882),降水量のMAE为1.79毫米,偏差可以忽略不计。
每个站点记录都附带高分辨率的FABDEM v1.2地形描述符(海拔、坡度、朝向、粗糙度),使得能够进行考虑地形的分析,并为解释俄罗斯地形复杂地区的局部气候模式提供背景。
尽管Roshydromet拥有广泛的观测网络,但由于持续的访问挑战,俄罗斯的气象数据在国际气候研究中的利用仍然严重不足。虽然RIHMI-WDC档案馆保存了历史记录,但数据门户经常出现服务中断,使得全球研究人员难以可靠地获取数据。此外,现有的数据集通常包含大量缺失值(1-20%的缺失数据),在使用这些数据之前需要进行预处理,无论是用于气候分析、水文模型还是生态系统研究。这两个障碍——访问不一致和时间覆盖不完整——促使我们创建了RusWeather-GF。
我们的主要目标不是方法上的创新,而是为气候研究社区提供一个可靠、经过质量控制的、经过数据填补的数据集,该数据集可以永久访问并立即使用。我们优先考虑了可重复性、透明度和稳健的验证,而不是算法的新颖性,采用了文献中广泛记录的成熟数据填补方法。这种实用的方法确保了填补值的合理性,其他研究小组可以复制该方法,并且用户可以自信地将数据应用于各种应用,而无需额外的预处理。
我们在整个数据集中整合了高分辨率的地形信息。每个站点不仅包括海拔,还包括从FABDEM v1.2获得的衍生地形特征,如坡度大小和方向、表面粗糙度以及朝向。这种地形背景使得气候分析能够考虑地形效应,并为俄罗斯山区提供有价值的预测变量,从而显著提高数据填补的准确性。第三,我们通过多种独立方法验证数据质量:自相关分析确认了时间结构的保留(差异<0.01),原始站点均值与填补后的站点均值之间的空间相关性超过0.999,视觉检查显示缺失边界处的过渡平滑,统计比较表明填补后的值保持了原始观测值的分布。
该数据集覆盖到2023年,捕捉到了北极气候的最新显著变化,我们通过Zenodo平台以知识共享署名4.0国际许可协议提供开放访问,并进行了永久性存档和DOI分配。这确保了数据集符合FAIR原则,并且可以自由用于研究、教育和运营应用。
这593个站点是通过严格的质量控制选定的:两个变量的缺失值最多为20%,观测时间至少为14年(≥5000条每日记录),并且地理位置在俄罗斯境内(19°–180°E,41°–82°N)。这种筛选确保了空间上的代表性网络,具有足够的数据覆盖范围,以便进行可靠的数据填补(图1)。最终的数据集包含8,893,613条每日记录,为俄罗斯不同气候区的长期气候分析提供了前所未有的时间完整性。RusWeather-GF为气候趋势分析、模型验证、水文和生态系统建模、极端事件特征描述以及气候变化影响评估提供了宝贵的资源,这些地区在气候上非常敏感且具有重要的地缘政治意义。