评估机器学习(随机森林、XGBoost)与统计模型(多元线性回归)在PM10及空气质量预测中的应用:以土耳其卡尔斯为例

《Atmospheric Pollution Research》:Evaluating Machine Learning (RF, XGBoost) and Statistical Model (MLR) for PM 10 and Air Quality Prediction: A Case from Kars, Türkiye

【字体: 时间:2026年03月13日 来源:Atmospheric Pollution Research 3.5

编辑推荐:

  本研究分析了2020年至2024年间土耳其东北部卡尔斯地区收集的空气质量数据,旨在识别区域污染趋势并预测PM10浓度及空气质量指数(Air Quality Index, AQI)。分析聚焦于PM10、一氧化碳(Car

  
本研究分析了2020年至2024年间土耳其东北部卡尔斯地区收集的空气质量数据,旨在识别区域污染趋势并预测PM10浓度及空气质量指数(Air Quality Index, AQI)。分析聚焦于PM10、一氧化碳(Carbon Monoxide, CO)和二氧化氮(Nitrogen Dioxide, NO2)。季节性与时段模式表明,PM10是研究期间的优势污染物,且由于供暖相关排放,冬季AQI水平显著升高。为进行预测,研究实施了多元线性回归(Multiple Linear Regression, MLR)、随机森林(Random Forest, RF)和极端梯度提升(Extreme Gradient Boosting, XGBoost)模型。为提升预测性能,开发了滞后模型,并使用随机验证和时序验证方法进行评估。使用均方根误差(Root Mean Square Error, RMSE)、平均偏差误差(Mean Bias Error, MBE)和决定系数(Coefficient of Determination, R2)评估模型性能。RF在PM10预测中实现了最高精度,RMSE为20.68,MBE为-1.82,R2为0.64。相比之下,MLR在AQI预测中优于其他模型,获得RMSE为12.38,MBE为0.62,R2为0.61。RF模型的特征重要性分析确定PM10滞后1天(PM10_lag1)是PM10和AQI模型中最具影响力的预测因子。NO2和风速显示出中度贡献,而其他气象和滞后变量的影响相对较小。总体而言,研究结果强调了污染物浓度和气象参数在改善空气质量预测方面的重要性。虽然RF展示了强大的PM10预测能力,但在AQI预测中模型性能下降,表明纳入混合高度和交通数据等额外因素可进一步增强基于机器学习的空气质量模型。
空气污染是全球范围内引发环境、社会及经济问题的复杂环境议题,对生态系统平衡及人类健康构成多维度的不利影响。世界卫生组织(World Health Organization, WHO)指出,空气污染每年导致约700万人过早死亡,是全球第四大致死因素。细颗粒物(Particulate Matter, PM2.5和PM10)及气态污染物如CO、氮氧化物(Nitrogen Oxides, NOx)、二氧化硫(Sulfur Dioxide, SO2)和臭氧(Ozone, O3)的吸入与呼吸道及心血管疾病发病率升高密切相关。尽管传统统计方法在特定条件下可能产生可靠结果,但由于时间序列数据的高度非线性和不稳定性,传统方法在准确预测空气质量参数方面存在局限。此外,现有研究多集中于工业化密集城市,针对低工业活动但冬季寒冷地区的研究相对缺乏。为此,本研究旨在构建基于机器学习的预测模型,以小时为粒度预测PM10水平和AQI,利用关键气象特征提升预测精度。

研究人员开展了基于土耳其东北部卡尔斯市固定空气质量监测站2020年至2024小时数据的建模研究。卡尔斯市具有高海拔台地地形特征,冬季漫长严寒,居民和商业供暖广泛使用固体燃料,且存在废弃物露天倾倒现象,导致PM10浓度在冬季显著升高。研究人员采集了PM10、CO和NO2的浓度数据,并结合大气压、平均风速、气温、降水量、相对湿度和云量等气象变量。为捕捉时间依赖性,研究人员引入了滞后PM10/AQI值(1、7、14、30天)、滚动平均值(7天和30天)及季节指示变量作为额外预测因子。主要技术方法包括数据预处理(缺失值清理、异常值识别)、特征工程(滞后变换、移动平均)以及模型构建。研究人员对比了三种算法:作为基准统计模型的多元线性回归(Multiple Linear Regression, MLR),以及两种机器学习算法:随机森林(Random Forest, RF)和极端梯度提升(Extreme Gradient Boosting, XGBoost)。模型采用80%数据训练、20%数据测试的时序分割方式进行验证,并通过5折交叉验证进行超参数调优,使用RMSE、MBE和R2等指标评估性能。

在研究结果部分,首先进行了统计分析,结果显示PM10平均浓度为47.91 μg/m3,CO为0.46 ppm,NO2为16.05 ppb。PM10浓度在冬季显著高于夏季,且多次超过国家规定的24小时平均值限值。AQI时间序列分析表明,尽管多数小时AQI值低于100,但冬季出现明显的短期超标峰值,主要归因于固体燃料燃烧排放。PM10是约90.89%的小时AQI确定的主导污染物。月度AQI分析显示,12月和1月为污染最重月份,7月和8月为最佳月份。季节性AQI分析证实,2021年冬季AQI最高(约66),2024年夏季最低(约23),季节间差异具有统计学显著性。在PM10预测模型中,引入滞后特征和共存污染物后,RF模型表现最佳(R2=0.68, RMSE=19.61),优于XGBoost和MLR。在AQI预测模型中,尽管RF和XGBoost试图捕捉非线性关系,但MLR模型在纳入气象和污染物变量后表现优于机器学习模型(R2=0.66, RMSE=11.58),表明AQI变异性主要呈线性特征。RF模型的特征重要性分析指出,PM10_lag1是影响PM10和AQI预测的最重要因子。

在讨论部分,研究人员指出PM10是卡尔斯地区空气污染的主要驱动因素,其季节性飙升与供暖排放、大气静稳条件及不受控的废物处理有关,这与邻近城市阿尔达汉和埃尔祖鲁姆的研究结果一致。虽然CO和NO2在冬季也有所上升,但其对AQI的贡献远小于PM10。研究结果与文献中传统机器学习模型在某些情况下优于统计模型的预期有所不同,特别是在AQI预测中MLR表现更佳。这可能是因为AQI是基于阈值计算的分段函数,且在某些时间框架下数据关系主要呈线性。研究人员强调,时序验证下的中等R2值反映了数据集的固有变异性及预测因子结构的限制,而非模型本身的不足。纳入滞后特征显著提高了预测性能,证实了空气质量的时间连续性。

研究结论部分总结道,本研究通过预测PM10和AQI,为公共健康规划和决策提供了直接适用的输出。PM10不仅是AQI的主要决定因素,也是冬季污染事件的主要贡献者。引入共存污染物浓度及滞后特征显著提升了模型的预测性能。对于PM10预测,RF模型精度最高;而对于AQI预测,MLR模型表现更优,表明该区域AQI变异性可通过线性框架有效表征。这些发现强调了针对不同目标污染物和区域特征采用特异性建模策略的重要性,为低工业活动、严寒气候城市的环境管理提供了有价值的参考。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号