RusWeather-GF:一个填补了数据空缺的俄罗斯每日天气数据集(1980–2023年),其中整合了地形数据

《Atmospheric Research》:RusWeather-GF: A gap-filled daily weather dataset for Russia (1980–2023) with integrated topographic data

【字体: 时间:2026年03月30日 来源:Atmospheric Research 4.4

编辑推荐:

  长期气象观测对气候研究至关重要,但地面站点网络存在数据断点。本研究构建了覆盖1980-2023年俄罗斯593个站点的RusWeather-GF数据集,填补了温度和降水数据缺口(分别1.62%和1.80%),采用三级方法:短缺(≤7天)用逆距离加权,中缺(8-30天)用随机森林回归,长缺(>30天)用站点气候模式,并整合高分辨率FABDEM地形数据。验证显示数据时空结构完整,统计特性保持,精度达温度RMSE 5.02°C、降水MAE 1.79mm,适用于气候分析、水文建模等应用。

  
Tkachenko Margarita | Fomin Dmitriy
V.V. Dokuchaev土壤科学研究所,Pyzhevsky Lane 7,莫斯科119017,俄罗斯

摘要

长期、全面的空间气象观测对于气候研究至关重要,然而全球的地面观测站网络存在时间上的不连续性,这限制了它们的实用性。我们推出了RusWeather-GF,这是一个填补了数据空缺的日温度和降水量数据集,涵盖了1980年至2023年间俄罗斯的593个气象站。该数据集通过多种方法验证的填补程序,解决了现有俄罗斯气候数据的关键局限性,实现了100%的时间完整性,整合了高分辨率的FABDEM v1.2地形描述符,并将数据范围扩展到了以往公开可用数据集之后的13年。所有145,122个温度缺失值(占观测数据的1.62%)和161,534个降水量缺失值(占观测数据的1.80%)都是使用适应性方法填补的:对于短期缺失(≤7天)采用逆距离加权法,对于中期缺失(8-30天)采用结合时间、空间和地形预测因子的随机森林回归法,对于长期缺失(>30天)则采用特定站点的气候学数据。全面的验证表明,该数据集保留了时间自相关结构(Δ < 0.01)、空间一致性(r > 0.999)以及统计分布。使用59个分层站点进行的交叉验证显示,温度的均方根误差(RMSE)为5.02°C(R2 = 0.9),降水量的平均绝对误差(MAE)为1.79毫米,且偏差可以忽略不计,这证明了该数据集在北极到温带气候区的稳健性能。该数据集包含8,893,613条每日记录,以及包括坐标、海拔、坡度和地形粗糙度在内的站点级元数据。RusWeather-GF适用于多种应用,包括气候趋势分析、水文建模、农业研究,以及俄罗斯气候和地形多样区域内的网格产品和再分析数据集的验证。该数据集通过Zenodo平台以CC BY 4.0许可协议公开提供。

引言

长期、全面的空间气象数据集对于理解气候变异性、验证气候模型以及支持水文学、农业和生态系统研究等多种应用至关重要(Vicente-Serrano等人,2010年;Woldesenbet等人,2017年)。基于地面的日温度和降水量观测提供了不可替代的基线数据,用于检测气候变化信号、校准网格产品,并评估对生态和人类系统有意义的时间尺度上的影响(Daly等人,2008年)。然而,全球的运营气象站网络由于设备故障、维护期、站点搬迁和社会经济中断等原因存在数据缺失问题(Cerlini等人,2020年;Costa等人,2021年),这影响了数据的实用性,因此需要仔细的填补程序来确保连续的时间序列,以便进行稳健的统计分析和建模应用。
俄罗斯领土面积超过1700万平方公里,跨越十一个时区,包含从北极苔原到温带森林的各种气候类型,这为气象数据收集带来了特殊的挑战和机遇。广阔的领土和多样的地形导致气候的高度空间变异性,使得基于地面的观测成为捕捉局部条件的重要手段,而低分辨率的网格产品可能无法充分代表这些条件(Bulygina和Razuvaev,2012年)。Roshydromet网络自19世纪末以来一直在进行气象观测,全俄水文气象信息研究所-世界数据中心(RIHMI-WDC)是主要的档案存储机构。然而,截至近年来的公开可用数据集在填补数据空缺和详细的质量验证方面仍然有限。Bulygina和Razuvaev(2012年)编制的涵盖518个站点的数据集仅持续到2010年,鉴于此后北极地区的显著变暖和降水模式的演变,这成为一个重要限制。
填补数据空缺的方法必须平衡多个因素,包括空缺长度、空间相关结构和时间动态(Teegavarapu和Chandramouli,2005年;Lo Presti等人,2010年)。当邻近站点提供高质量的同时期数据时,空间插值技术(如逆距离加权法IDW和普通克里金法)对于短期中断表现良好(Simolo等人,2010年;Woldesenbet等人,2017年;Xu等人,2015年)。机器学习方法,特别是随机森林回归,可以整合时间模式、空间相关性和地形特征,用于中期缺失(Portuguez-Maurtua等人,2022年;Kumar和Varija,2024年;O’Sullivan和Kelly,2024年),而气候学方法则确保了长期中断情况下的数据一致性(Mwale等人,2012年;Hurtado等人,2021年)。高分辨率地形数据的整合通过捕捉海拔依赖的温度梯度和地形降水效应提高了数据填补的准确性(Daly等人,2008年;Thornton等人,2022年)。最近发布的FABDEM版本1-2是一种30米分辨率的全球裸地高程产品,其质量已被验证优于之前的DEM产品(Hawker等人,2022年;Dandabathula等人,2023年;Meadows等人,2024年),有助于更好地描述地形对局部气候的影响。
我们推出了RusWeather-GF(俄罗斯天气-数据填补),这是一个经过质量控制的、公开可获取的日温度和降水量数据集,涵盖了1980年至2023年间俄罗斯的593个气象站。该数据集解决了限制俄罗斯气候数据使用的关键实际问题。
通过Zenodo平台提供永久开放的访问权限,并分配了DOI,确保了数据的可靠性和不间断可用性,不受机构服务器基础设施的影响。数据集以标准CSV格式提供,无需特殊软件,便于立即整合到各种研究工作流程中。
所有缺失值——温度的1.62%和降水的1.80%——都是使用经过验证的三层方法填补的,从而实现了进行统计分析、趋势检测和模型驱动所需的100%完整时间序列。短期缺失(≤7天)采用邻近站点的逆距离加权法;中期缺失(8-30天)使用结合时间、空间和地形预测因子的随机森林回归法;长期缺失(>30天)则依赖特定站点的气候学数据。
关于质量控制程序、数据填补算法和验证结果的全面文档使用户能够评估数据适用于特定应用的适用性,并了解填补值的不确定性特征。使用59个分层站点进行的交叉验证显示,温度的RMSE为5.02°C(R2 = 0.882),降水量のMAE为1.79毫米,偏差可以忽略不计。
每个站点记录都附带高分辨率的FABDEM v1.2地形描述符(海拔、坡度、朝向、粗糙度),使得能够进行考虑地形的分析,并为解释俄罗斯地形复杂地区的局部气候模式提供背景。
尽管Roshydromet拥有广泛的观测网络,但由于持续的访问挑战,俄罗斯的气象数据在国际气候研究中的利用仍然严重不足。虽然RIHMI-WDC档案馆保存了历史记录,但数据门户经常出现服务中断,使得全球研究人员难以可靠地获取数据。此外,现有的数据集通常包含大量缺失值(1-20%的缺失数据),在使用这些数据之前需要进行预处理,无论是用于气候分析、水文模型还是生态系统研究。这两个障碍——访问不一致和时间覆盖不完整——促使我们创建了RusWeather-GF。
我们的主要目标不是方法上的创新,而是为气候研究社区提供一个可靠、经过质量控制的、经过数据填补的数据集,该数据集可以永久访问并立即使用。我们优先考虑了可重复性、透明度和稳健的验证,而不是算法的新颖性,采用了文献中广泛记录的成熟数据填补方法。这种实用的方法确保了填补值的合理性,其他研究小组可以复制该方法,并且用户可以自信地将数据应用于各种应用,而无需额外的预处理。
我们在整个数据集中整合了高分辨率的地形信息。每个站点不仅包括海拔,还包括从FABDEM v1.2获得的衍生地形特征,如坡度大小和方向、表面粗糙度以及朝向。这种地形背景使得气候分析能够考虑地形效应,并为俄罗斯山区提供有价值的预测变量,从而显著提高数据填补的准确性。第三,我们通过多种独立方法验证数据质量:自相关分析确认了时间结构的保留(差异<0.01),原始站点均值与填补后的站点均值之间的空间相关性超过0.999,视觉检查显示缺失边界处的过渡平滑,统计比较表明填补后的值保持了原始观测值的分布。
该数据集覆盖到2023年,捕捉到了北极气候的最新显著变化,我们通过Zenodo平台以知识共享署名4.0国际许可协议提供开放访问,并进行了永久性存档和DOI分配。这确保了数据集符合FAIR原则,并且可以自由用于研究、教育和运营应用。
这593个站点是通过严格的质量控制选定的:两个变量的缺失值最多为20%,观测时间至少为14年(≥5000条每日记录),并且地理位置在俄罗斯境内(19°–180°E,41°–82°N)。这种筛选确保了空间上的代表性网络,具有足够的数据覆盖范围,以便进行可靠的数据填补(图1)。最终的数据集包含8,893,613条每日记录,为俄罗斯不同气候区的长期气候分析提供了前所未有的时间完整性。RusWeather-GF为气候趋势分析、模型验证、水文和生态系统建模、极端事件特征描述以及气候变化影响评估提供了宝贵的资源,这些地区在气候上非常敏感且具有重要的地缘政治意义。

数据来源

数据来源

气象观测数据来自全俄水文气象信息研究所-世界数据中心(RIHMI-WDC),提供了1980年至2023年间俄罗斯气象站的日平均温度(°C)和降水量总和(mm)(Bulygina和Razuvaev,2012年)。站点坐标和名义海拔数据来自官方的Roshydromet注册系统。地形特征数据来自Copernicus数字高程模型。

数据记录

RusWeather-GF数据集在Zenodo平台上公开存档(https://doi.org/10.5281/zenodo.17789545),这是一个由CERN运营的开放访问存储库,确保了数据的长期保存和可访问性。该存储库提供了持久的DOI分配、版本控制以及与学术基础设施的集成,便于数据引用和发现。

技术验证

我们通过多种独立方法评估了数据填补的质量:覆盖统计、时间一致性分析、填充段落的视觉检查以及统计分布比较。这些互补的方法确保了填补后的值保持了原始观测的特征,没有引入系统性的偏差或伪影。

总结与局限性

全面的验证表明,RusWeather-GF达到了高质量标准:100%的数据填补覆盖率,时间结构的保留(自相关Δ < 0.01),近乎完美的空间一致性(r > 0.999),平滑的视觉过渡,以及保持的统计分布。这些结果证明了该数据集适用于长期趋势分析、空间插值和映射、气候模型验证以及需要这些功能的生态系统和水文建模。

数据集引用

Tkachenko, M.A., Fomin, D.S., 2025. RusWeather-GF:俄罗斯(1980–2023年)的日天气数据集(数据集):来自593个站点的温度和降水量。V.V. Dokuchaev土壤科学研究所。Zenodo。 https://doi.org/10.5281/zenodo.17789545
存储库:Zenodo(https://zenodo.org/)。
文件名:rusweather_gf_1980_2023.csv
文件格式:CSV(逗号分隔值),UTF-8编码。
文件大小:约850 MB(未压缩),约200 MB(ZIP压缩后)

CRediT作者贡献声明

Tkachenko Margarita:撰写——原始草稿、可视化、验证、资源准备、方法论、调查、正式分析、数据管理。Fomin Dmitriy:撰写——审阅与编辑、监督、资源管理、项目协调、资金获取、数据管理、概念化。

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时,作者使用了Google的Gemma 2大型语言模型将文本翻译成英文并提高了可读性。使用该工具/服务后,作者对文本进行了审阅和编辑。

利益冲突声明

作者声明没有利益冲突。资助方未参与研究的设计、数据收集或分析、手稿的撰写,也未参与发表结果的决策。

致谢

本研究得到了俄罗斯联邦科学与高等教育部根据协议号075-15-2024-545(日期为2024年4月24日)的财政支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号