iTransformer-MDC用于短期PM2.5预测：以北京为例的案例研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Atmospheric Pollution Research》：iTransformer-MDC for Short-term PM 2.5 Forecasting: A Case Study of Beijing

【字体：大中小】 时间：2026年03月19日 来源：Atmospheric Pollution Research 3.5

编辑推荐：

　　PM2.5预测中全局依赖建模不足的问题，提出iTransformer-MDC模型，融合多尺度卷积模块，显著提升北京35站1-5小时预测精度，RMSE降低6%-9%，并验证跨污染物泛化能力。

于霞|蔡坤

河南财经大学计算机与人工智能学院，郑州，450046，中国

摘要

空气污染是一个关键的环境问题，它限制了城市的可持续发展。实现高精度的PM_2.5预测不仅为污染控制决策提供了重要支持，也对公共卫生保护具有重要意义。然而，现有的预测模型在捕捉复杂变量依赖关系方面存在局限性，这限制了预测性能的进一步提升。因此，我们提出了一种新的PM_2.5预测模型，称为iTransformer-MDC。该模型将多尺度膨胀卷积（MDC）模块集成到iTransformer框架中。利用其固有的基于位置的归纳偏差和多尺度感受野，MDC模块系统地编码了从局部到全局的变量依赖关系，增强了模型捕捉多尺度变量相互作用的能力。实验使用了来自北京35个空气质量监测站的数据。结果表明，所提出的iTransformer-MDC模型在1小时、3小时和5小时的预测时间范围内显著优于基线模型。具体来说，与iTransformer模型相比，它分别将均方根误差（RMSE）降低了6%、7%和9%。此外，扩展实验还证实，该模型在预测其他空气污染物浓度方面也表现出色，展示了其出色的泛化能力和在该领域的广泛应用潜力。

引言

随着中国可持续经济和社会发展的加速，空气污染问题引起了越来越多的关注（Jin等人，2022年）。PM_2.5被定义为空气动力学直径为2.5微米或更小的细颗粒物，是评估大气污染水平的关键指标。它主要来源于与人类活动（如工业过程、交通和发电）相关的化石燃料燃烧（Brook等人，2010年）。由于PM_2.5颗粒的亚微米尺寸，它们可以吸附病原微生物和有毒化学污染物。这些颗粒可以深入呼吸系统，到达肺泡、细支气管和血液，引发肺炎、心血管疾病和癌症等疾病（Barzeghar等人，2020年；Parascandola和Xiao，2019年；Pier Mannuccio等人，2019年）。研究表明，PM_2.5浓度每增加10微克/立方米，全因死亡率、心血管疾病死亡率和肺癌死亡率分别增加约4%、6%和8%（Pope III等人，2002年）。此外，PM_2.5可以在空气中悬浮很长时间，导致光线的显著散射和吸收。它被认为是雾霾形成的主要成分和关键驱动因素（Gan等人，2020年；Gao等人，2015年）。因此，准确预测PM_2.5浓度趋势可以有效降低高浓度期间的公众暴露风险，这对空气污染控制和公共卫生保护都具有重要意义。

现有的PM_2.5预测方法主要包括数值模拟方法、统计分析方法和机器学习方法（Gong等人，2023年；Liu等人，2021年；Wang和Song，2018年）。其中，数值模拟方法通过求解控制大气物理和化学方程，可以根据耦合气象和化学过程的方法分为在线和离线模式。在线耦合方法的例子是WRF-Chem模型（Grell等人，2005年），它在同一数值框架内同时集成气象和化学模块，使用相同的网格和相同的时间步长。这使得气象场和污染物场之间能够实现实时双向反馈，从而更真实地模拟这些耦合过程。离线耦合模型的例子是社区多尺度空气质量（CMAQ）模型，它采用“先进行气象模拟，然后进行化学传输”的计算架构。虽然这种解耦方法提供了灵活性并便于多场景测试，但它不支持从化学到气象的实时反馈（Zhang等人，2023年）。尽管数值模拟提供了清晰的物理解释性，但其性能强烈依赖于高精度的排放清单和气象输入，并且计算需求较大。统计分析方法使用统计技术从历史空气污染物数据构建模型，绕过了复杂的物理化学过程。常见的例子包括自回归积分滑动平均（ARIMA）、广义加性建模（GAM）和地理加权回归（GWR）。在这些方法中，ARIMA模型通过自回归、差分和滑动平均提取序列中的内在模式进行预测（Zhang等人，2018年）。与ARIMA的单变量外推不同，GAM模型将PM_2.5表示为多个预测因子的平滑函数之和，通过数据驱动的薄板样条自动拟合非线性关系（Zou等人，2017年）。此外，GWR是一种空间局部回归模型，通过构建地理加权局部回归方程来捕捉PM_2.5等变量的空间非平稳性（Zhao等人，2020年）。

与数值模拟方法相比，统计分析方法所需的计算量较少，也更容易建立。然而，它们的性能严重依赖于数据稳定性和线性的假设，难以捕捉污染物的复杂非线性动态。为了解决这一限制，机器学习方法已被广泛应用于空气污染预测领域。Vignesh等人（2023年）利用支持向量回归（SVR）、随机森林（RF）和AdaBoost回归等技术来预测每日PM_2.5水平。Wang等人（2023年）采用了基于堆叠的融合建模策略，整合了三种梯度提升算法（XGBoost、LightGBM和GBDT）作为基础模型。这种集成方法有效减少了单个模型在极端点的预测偏差，从而提高了模型的稳定性和预测准确性。然而，这些传统的机器学习方法通常严重依赖手动特征工程，并且在捕捉长期时间依赖关系和复杂空间相关性方面能力有限。

随着深度学习技术的进步，其强大的自动特征提取能力和在建模复杂时空非线性关系方面的优势逐渐使其成为空气质量预测领域的研究热点。循环神经网络（RNN）（Biancofiore等人，2017年）及其变体（如长短期记忆（LSTM）模型（Bian和Huang，2024年；Kristiani等人，2022年）和门控循环单元（GRU）（Huang等人，2021年）在这一领域得到广泛应用。Yu等人（2024年）提出了一种结合空间加权机制和经验模态分解的LSTM预测模型。首先，使用逆距离加权方法对来自多个监测站的PM_2.5数据进行空间融合。其次，应用经验模态分解对目标站点的污染物时间序列进行多尺度分解，抑制噪声并提取关键时间特征。最后，将处理后的时空特征输入LSTM模型进行训练，以实现高精度的短期PM_2.5浓度预测。Faraji等人（2022年）首先使用具有相似时间序列模式的监测站构建了一个时空数据立方体，然后使用CNN提取站间相关特征，接着使用GRU模型进行PM_2.5浓度预测。

近年来，Transformer模型（Vaswani等人，2017年）被引入PM_2.5预测领域，利用其自注意力机制有效捕捉时间序列数据中的长期宏观依赖关系。为了进一步提高预测性能，研究人员提出了各种改进的Transformer模型。例如，为了解决传统Transformer模型在连续时间序列预测中的过泛化问题，Yu等人（2023年）提出了ST-Transformer模型。该模型创新地将稀疏注意力机制集成到Transformer架构中。通过过滤噪声并关注关键信息，这种机制有效防止了模型被无关数据干扰，从而显著提高了PM_2.5浓度预测的准确性。Zou等人（2024年）提出了PD-LL-Transformer模型，通过集成多维嵌入层、局部LSTM模块和Transformer编码器来增强提取时空特征的能力。同时，为了解决Transformer在长序列预测中面临的计算效率和特征稀缺问题，Informer、ST-Informer和AutoFormer等新框架已被应用于空气污染物浓度预测领域（Cai等人，2023年；Ma等人，2023年；Pan等人，2023年）。iTransformer模型（Liu等人，2023年）于2023年提出，其核心创新是采用了“维度反转”机制，修改了传统的Transformer架构，以提高其适用于时间序列预测的能力。该模型将每个变量的整个时间序列独立嵌入到一个令牌中，通过自注意力机制捕捉变量之间的全局依赖关系，并使用层归一化和前馈网络学习序列表示。在多个公共数据集上的实验表明，iTransformer在电力负荷预测、交通流量估计、气象环境预测和光伏发电预测等各种任务中表现出先进的预测性能。由于其出色的泛化能力，该模型在本研究中被应用于PM_2.5预测。

iTransformer通过变量间自注意力机制捕捉多变量时间序列中的全局变量相关性，但缺乏明确建模局部变量关系的能力。为了解决这一限制，本文提出了iTransformer-MDC模型，将多尺度膨胀卷积（MDC）模块集成到iTransformer框架中。其次，考虑到气象特征会影响PM_2.5浓度预测的准确性，本研究将气象数据与空气质量监测站的数据结合起来。为了验证所提出方法的有效性，本文对北京多个监测站的PM_2.5浓度进行了预测。本文的主要贡献如下：

1.

我们提出了一种新的并行双分支架构iTransformer-MDC。尽管iTransformer中的自注意力机制可以有效建模变量之间的全局依赖关系，但它缺乏局部归纳偏差，因此难以有效捕捉局部相关性。为此，我们引入了多尺度膨胀卷积作为并行分支，将局部归纳偏差注入模型，实现在统一框架内从局部到全局尺度跨变量维度的多尺度依赖关系建模。

2.

我们验证了自注意力机制和卷积模块的协同融合优势。通过比较包括并行融合、串行连接和注意力消融在内的多种架构变体，我们证明了并行双分支设计可以有效地利用这两个组件的互补优势。

3.

在北京高分辨率空气质量数据集上的实验表明，所提出的iTransformer-MDC模型在短期PM_2.5预测方面优于各种基线模型，为空气质量预警和公共卫生保护提供了可靠的支持。

研究区域

本研究关注中国首都北京。作为一座大都市，北京的人口永久超过2100万。快速的人口增长、城市化和车辆交通的增加不可避免地导致全市空气污染排放量显著上升，这对居民的身体和心理健康产生了不利影响（Xu等人，2024年）。此外，北京的地理位置和气象条件也影响了其空气质量

对比实验

为了验证iTransformer-MDC模型的优势，我们将它的短期PM_2.5预测性能与其他常用的基准模型进行了比较。可比的模型包括ARIMA（Box和Jenkins，1968年）、LSTM（Hochreiter和Schmidhuber，1997年）、GRU（Cho等人，2014年）、BiLSTM、Transformer、TCN（Bai，2018年）、Informer（Zhou等人，2021年）和iTransformer。我们使用这些模型预测监测站1001A在未来1小时、3小时和5小时内的PM_2.5浓度。

结论

本文提出了iTransformer-MDC，这是一种新的PM_2.5预测模型。该模型在iTransformer框架内并行集成多尺度膨胀卷积（MDC）模块。利用其固有的基于位置的归纳偏差和多尺度感受野，MDC模块系统地编码了从局部到全局的变量依赖关系。这种协同设计显著增强了模型捕捉多尺度变量相互作用的能力，从而

CRediT作者贡献声明

于霞：撰写——审阅与编辑、撰写——原始草稿、可视化、软件、方法论、调查、形式分析、数据整理、概念化。蔡坤：撰写——审阅与编辑、可视化、验证、监督、资源

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（批准号：U1804154）和河南省自然科学基金（批准号：242300420215）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

研究区域

研究区域

对比实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行