《Sustainability》:AI-Driven Particulate Matter Forecasting and Spatial Estimation in the CityAirQ Urban Monitoring Network
编辑推荐:
摘要:城市空气质量监测网络通常布设稀疏,导致颗粒物(Particulate Matter,PM)浓度无法直接观测的覆盖盲区。本文扩展CityAirQ污染追踪平台及其移动空气质量设备原型,通过在布加勒斯特两个站点网络上针对三项面向实际部署的任务建立基于人工智能(
摘要:城市空气质量监测网络通常布设稀疏,导致颗粒物(Particulate Matter,PM)浓度无法直接观测的覆盖盲区。本文扩展CityAirQ污染追踪平台及其移动空气质量设备原型,通过在布加勒斯特两个站点网络上针对三项面向实际部署的任务建立基于人工智能(Artificial Intelligence,AI)的基准测试:多站点时序预报(Task A)、留一站点同日空间估算(Task B)及在未校准位置开展的初步移动站点预测试点(Task C)。该基准对比包括集成树方法、循环神经网络(Recurrent Neural Network,RNN)及轻量化类图神经网络(Graph Neural Network,GNN)架构在内的机器学习模型,并在统一的时间感知滚动协议下评估。Task A中,所提出的Advanced Stage 0–3流水线取得最优整体平均绝对误差(Mean Absolute Error,MAE)7.12 μg/m3,较随机森林(Random Forest,RF)的7.47 μg/m3降低4.7%;而季节朴素(Seasonal na?ve)法(10.41 μg/m3)、持续性(Persistence)法(11.51 μg/m3)及神经与类图参照模型在递归预报中表现较差。Task B中,仅依赖邻站数据的随机森林在经典四站网络上平均决定系数(R2)达0.873,在十站城市尺度扩展网络上中位R2为0.734。Task C报告为探索性六日预测试点而非可部署级验证:移动位置?处无共址EPA联邦参比方法(Federal Reference Method,FRM)/联邦等效方法(Federal Equivalent Method,FEM)或等同参比监测仪。历史迁移随机森林保留了样本受限下与原始移动读数的PM2.5正相关(r>0,p<0.05),严格一日超前在线持续性预测器将五個可预报移动日的PM2.5MAE从40.58降至20.00 μg/m3。准确的PM监测最终有助于可持续城市规划,减轻暴露风险并支持长期公共卫生与环境可持续发展举措。
论文解读:
《Sustainability》刊载的这篇研究针对城市稀疏空气质量监测网络难以全面获取颗粒物(Particulate Matter,PM)浓度时空分布的问题展开。现有城市监测站点布设稀疏、观测存在盲区,传统统计时序模型难以捕捉非线性时空依赖,而复杂时空图神经网络(Spatiotemporal Graph Neural Network,STGNN)又对气象协变量和大规模网络要求较高,在小型稀疏网络上优势不明显。为此,研究人员在CityAirQ物联网污染追踪平台及低成本低功耗可穿戴移动传感设备基础上,构建面向稀疏布网场景的人工智能(Artificial Intelligence,AI)基准测试框架,分别设计多站点时序预报、留一站点同日空间估算和未校准新位置移动传感预测三项任务,采用时间感知滚动切分防止未来信息泄露,系统比较经典回归、集成树、长短期记忆网络(Long Short-Term Memory,LSTM)、轻量类扩散卷积循环网络(Diffusion Convolutional Recurrent Neural Network,DCRNN)及类时空图卷积网络(Spatiotemporal Graph Convolutional Network,STGCN)参照模型,并提出融合传输特征、主成分分析(Principal Component Analysis,PCA)潜时间因子与空间插值元学习器的Advanced Stage 0–3残差时空流水线,为数据稀缺城市提供可解释且易部署的PM预报与空间估算方案。
主要关键技术方法:研究数据来源于布加勒斯特经典四站AQICN日均值序列及Sensor.Community城市尺度15站(取PM覆盖率最高的10站)PM1、PM2.5、PM10公开数据集,移动传感数据为CityAirQ便携设备于未覆盖点连续六日5分钟频次聚合为日中位数。缺失值采用分裂感知(split-aware)混合填补(短窗时序平滑+季节距中位+同日跨站均值+前向/后向填充)。Task A输入为滑动窗L=10日全网PM张量,递归预报H=30日,五折滚动评估;基线含线性回归(Linear Regression,LR)、随机森林(Random Forest,RF,n_estimators=300)、支持向量回归(Support Vector Regression,SVR,RBF核)、双层LSTM(192隐单元)、季节朴素与持续性参照、轻量DCRNN-style(门控循环单元Gated Recurrent Unit,GRU+反向哈弗辛距离邻接扩散混合)与STGCN-style(图卷积+1D时序卷积);Advanced流水线以90日滚动均值作季节基线预测残差,构造1–14日密集滞后、斐波那契滞后、滚动统计、指数加权均值、站点聚合、成对站差、周期编码,加入反距离污染物传输特征(received_sum/received_max,幂γ=1,2)及lag-1矩阵PCA提取4个潜时间分量,残差回归器为多输出直方图梯度提升(HistGradientBoosting,损失=absolute_error,经随机搜索调参),Stage 3叠加基于岭回归交叉验证(RidgeCV)的反距离空间插值元学习器 blending 基预测与邻站加权平均。Task B以留一站点构建含当日邻站读数、长尾滞后(1,2,3,5,7,10,14,21日)、10日滚动统计、邻站各污染物聚合及年周期正弦/余弦的特征向量,RF(n_estimators=500,max_depth=24)训练历史期预测最近180日。Task C以15站历史RF做历史迁移预测移动点日值,辅以在线一日超前持续性预测(次日=前一日移动日中位)。
研究结果:
4.1 多站点时序预报(Task A):在五折滚动30日递归预报下,各模型整体PM2.5MAE由低到高为Advanced流水线7.118 μg/m3、RF 7.469、LR 8.054、SVR 8.231、LSTM 9.142、DCRNN-style 9.828、Seasonal na?ve 10.406、STGCN-style 10.550、Persistence 11.512 μg/m3。S2站误差最低反映局地均质PM场,S4站最高。LSTM不及LR说明10日窗内PM自相关近似线性结构占主导;轻量图参照因简化实现及小网络限制表现偏弱。
4.2 Advanced流水线在Task A上的表现:Advanced Stage 0–3流水线整体MAE 7.118 μg/m3,较RF降低4.7%;分污染物PM1为5.089(RF 5.369)、PM2.5为7.543(RF 7.941)、PM10为8.721(μg/m3,RF 9.097),相对降幅5.2%、5.0%、4.1%,证明工程特征与残差建模在稀疏网络上具增量价值。
4.3 小结:Advanced流水线综合最优,RF为最强经典基线,神经网络与轻量图模型未超越;部分短窗负样本外R2属递归预报常见现象非计算错误。
4.4 经典四站网络空间估算(Task B):留一邻站RF估计最近180日,四站平均R2=0.873(S2最高、S4最低),表明紧凑地理范围内同日邻站读数具强空间重建力,但高R2部分归因于共有季节周期而非纯空间传递。
4.5 城市尺度Sensor.Community扩展:十站留一RF中位R2=0.734(均值0.691),SC84029最强、SC87013最弱。全模型与仅当日邻站变体相近,仅滞后或仅季节变体显著退化,证实同日邻站信息是Task B核心。置换重要性显示dayofyear_cos最重要,次之为邻站PM10/PM2.5均值——季节项贡献大过最强空间邻域特征。Advanced流水线将城市尺度Task B平均MAE从3.918降至3.860 μg/m3(降1.5%),平均R2从0.699升至0.720(升3.0%);其重要特征转为邻站聚合与站特异性滞后,传输流(transport flow)类别呈正向贡献。
4.6 移动传感与野外部署(Task C):CityAirQ移动传感器于未覆盖点?连续六日(2026年4月24–29日含周末)记录,前四日处高压槽伴高温高湿PM偏高(中位PM2.584–107 μg/m3),第5日锋面过境后骤降至7 μg/m3;第2–3日周末近恒定值疑为大气停滞或传感器量化特性,需共址参比确认。历史迁移RF对PM1/PM2.5/PM10Spearman相关系数分别为0.648、?0.031、?0.185,存原始尺度偏移;严格一日超前在线持续性预测将PM1/PM2.5/PM10MAE较历史迁移RF分别降低53.3%、50.7%、54.3%,但未能捕捉第5日突变,说明实操需结合历史空间迁移与部署后快速本地自适应。
讨论与结论(译文浓缩):核心经验为稀疏日分辨率PM网络中近期浓度历史与精心特征工程至少与模型复杂度同等重要。Advanced Stage 0–3流水线Task A整体MAE 7.118 μg/m3(较RF降4.7%),Lightweight DCRNN/STGCN参照在此小网偏弱但不推广至完整STGNN。Task B同日邻站可用时RF留一估计经典网平均R2=0.873、城域十站中位R2=0.734;置换重要性揭示季节编码主导部分精度,同日邻站信息移除则难度剧增。从业者可以带季节特征与邻站聚合的良好工程化机器学习作为数据稀缺城市PM监测起点,Advanced流水线通过残差建模、传输特征与空间插值再获稳定增益。Task C证示未校准新位移动点预测可行路径但非可部署精度,后续需更长窗口与共址参比仪校准。未来应在更多城市评估该流水线、扩展Task C含正式校准协议、调查周末平台量化行为、拓展多城滞后仅Task B。完善此类AI驱动监测方法可直接助益城市对抗空气污染及保障公众健康之可持续议程。