利用十年数据集和机器学习方法改进中国区域大气加权平均温度建模

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Remote Sensing》：Improved Regional Atmospheric Weighted Mean Temperature Modeling Using a Decadal Dataset and Machine Learning Methods over China

【字体：大中小】 时间：2026年06月11日 来源：Remote Sensing 4.1

编辑推荐：

　　精确估计大气加权平均温度（Tm）是地基全球导航卫星系统（GNSS）观测反演可降水量（PWV）的关键。机器学习（ML）技术在建模Tm时间序列、站点地理坐标和地面气象参数之间的非线性关系方面表现出色，近期研究表明，ML和神经网络模型优于传统线性Tm模型。然而，GN

精确估计大气加权平均温度（Tm）是地基全球导航卫星系统（GNSS）观测反演可降水量（PWV）的关键。机器学习（ML）技术在建模Tm时间序列、站点地理坐标和地面气象参数之间的非线性关系方面表现出色，近期研究表明，ML和神经网络模型优于传统线性Tm模型。然而，GNSS站点地面气象测量在高精度Tm反演方面的全部潜力仍有待充分探索。本研究采用两种ML方法——随机森林（RF）和时序混合专家注意力模型（TMESA）——开发了区域Tm经验模型，以生成可靠的实时Tm估计值，并提高中国区域业务化GNSS-PWV反演的精度。研究人员采用传统线性模型作为基线，评估所提出模型的性能改进。模型使用2014至2023年10年间的逐时ERA5导出Tm产品和来自2377个气象站的原位地面气压、温度和相对湿度进行训练和测试，并将Tm日变化、站点坐标和年积日作为辅助预测特征集成。验证使用2024年ERA5再分析数据和来自中国120个站的探空仪廓线进行。结果表明，RF模型与ERA5对比的偏差（均方根误差，RMSE）为-0.11 K（2.67 K），与探空数据对比为-0.21 K（2.67 K），而TMESA模型表现更优，偏差（RMSE）分别为-0.02 K（2.34 K）和0.09 K（2.46 K），其性能水平与最新研究相当。与传统线性模型相比，RF模型使Tm的RMSE相对于ERA5降低了32%，相对于探空数据降低了25%，而TMESA模型分别降低了40%和33%。这些发现证实，所提出的ML模型能够为可靠的GNSS-PWV反演提供高精度Tm估计。未来工作将聚焦于这些模型在近实时GNSS-PWV估计中的业务化应用。

**论文解读：基于十年数据集与机器学习方法的中国区域大气加权平均温度建模改进**

**研究背景与问题**
大气可降水量（PWV）是天气与气候预测的关键指标，全球导航卫星系统（GNSS）因全天候、高一致性和低成本等优势被广泛用于PWV反演。大气加权平均温度（Tm）是地基GNSS反演PWV的核心变量，其精度直接影响PWV的准确性——Tm偏差可引入PWV的人为日循环并导致1%~2%的昼夜差异。现有Tm模型可分为基于探空数据和基于再分析数据两类，但普遍受限于地面气温测量的可用性、建模所用Tm数据集的精度与覆盖范围、以及Tm的日变化、季节性和地理差异。近期研究表明，机器学习（ML）和神经网络模型优于传统线性Tm模型，但全国尺度、十年跨度、融合密集地面气象观测网络的集成学习研究仍存空白。中国气象局已部署超过1600个地基GNSS站（含气象传感器），ERA5再分析等高质量数据集与成熟集成学习方法的发展，为改进区域Tm建模、提升GNSS-PWV反演精度提供了契机。

**研究内容与结论**
研究人员利用随机森林（RF）和时序混合专家注意力模型（TMESA）两种机器学习方法，基于2014~2023年逐时ERA5导出Tm产品及2377个气象站的原地气压、温度、相对湿度观测，构建了中国区域Tm经验模型。传统线性模型作为基线方法。模型集成Tm日变化、站点地理坐标和年积日等辅助特征。验证采用2024年ERA5再分析数据和120个探空站的廓线数据。结果显示：RF模型相对ERA5的偏差（均方根误差，RMSE）为-0.11 K（2.67 K），相对探空为-0.21 K（2.67 K）；TMESA模型更优，分别为-0.02 K（2.34 K）和0.09 K（2.46 K），性能与最新研究相当。与线性模型相比，RF使Tm的RMSE相对ERA5降低32%、相对探空降低25%，TMESA分别降低40%和33%。这表明所提出的ML模型能为可靠的GNSS-PWV反演提供高精度Tm估计。论文发表在《Remote Sensing》。

**关键技术方法**
本研究主要采用以下关键方法：1）数据源：ERA5再分析数据（空间分辨率0.25°×0.25°，37个气压层，逐时）；来自中国气象局国家气象科学数据中心（NMSDC）的2377个地面气象站逐时观测（包括气温Ts、相对湿度RHU、气压PRS、小时降水量PRE、小时最大风速WIN_S_Max）；120个探空站的廓线。2）Tm计算：根据ERA5的逐时温度、相对湿度和位势高度按37个气压层积分得到Tm。3）特征增强：计算温湿指数（THI）、位温（θ）和海平面气压（SLP）；应用小波变换提取高频能量与高频比；构造时滞项（1 h滞后Ts、3 h温差、24 h移动平均等）、交互项（Ts×RHU、Ts×PRS）以及傅里叶位置编码表征空间异质性。4）建模方法：RF（利用SHAP进行特征重要性分析，优化后输入Ts、气压、相对湿度、坐标、时间要素等）；TMESA（集成稀疏混合专家架构与量化回归输出，Top-K专家路由）。5）评价指标：偏差、均方根误差（RMSE）和相关系数（r）。

**研究结果**

**4.1 Tm模型性能**
线性模型（拟合公式Tm = 0.8514×Ts + 25.2654）在中国南方呈正偏差（0~3 K），北方和青藏高原呈负偏差（最高-6.32 K），RMSE在高原达7.6 K；RF模型偏差缩小至-1.1~1.1 K，RMSE为1.7~3.8 K，r>0.8（除西南局部）；TMESA模型偏差为-2.3~1.9 K，RMSE为1.6~4.0 K，r>0.8（除西南局部），性能显著优于线性模型。

**4.2 模型比较与综合评估**
训练数据达4年以上时三模型平均偏差小（-0.1~0.13 K）；7年训练下的RF和TMESA的RMSE分别为2.68 K和2.35 K，r为0.96和0.97。TMESA模型有88.4%站点的RMSE<3 K（探空验证），RF为63.4%，线性模型仅17.5%。各季节和气候区中，TMESA的RMSE最小（全国均值2.34 K，探空2.46 K），RF次之（2.67 K），线性模型最大（3.90 K）。RF和TMESA在热带区和青藏高原的提升最为显著（RF提升53%，TMESA提升55%）。与线性模型相比，RF和TMESA使Tm的RMSE相对ERA5分别改善32%和40%，相对探空改善25%和33%。

**讨论与结论**
讨论指出，ML模型能有效捕捉大气热力学的非线性关系。计算效率上，线性模型预测仅需1 min，RF和TMESA分别需5 min和7 min，但精度显著提升，适合离线训练后业务部署。模型输入需地面气象观测，中国气象局GNSS站均配备传感器，非气象局站多邻近气象站，可通过时空插值或再分析填补缺测。结论总结：本研究利用RF和TMESA建立区域Tm经验模型，基于2014~2023年十年ERA5与2377站气象观测数据和辅助特征，训练样本1.7714亿个，测试样本2057.8万个，验证样本2060.9万个及120站探空廓线。RF模型的偏差（RMSE）相对ERA5为-0.11 K（2.67 K），相对探空为-0.21 K（2.67 K）；TMESA更优，分别为-0.02 K（2.34 K）和0.09 K（2.46 K），与最新研究相当。与线性模型相比，RF使RMSE降低32%~25%，TMESA降低40%~33%，证明所提ML方法能为GNSS-PWV反演提供高精度Tm估计。未来工作将专注于模型在近实时GNSS-PWV估计中的业务化应用。

联系信箱：

粤ICP备09063491号

热点排行