使用集成机器学习模型的中国主要城市空气质量指数预测:对可持续城市的洞察

《Sustainable Futures》:China major cities air quality index forecasting using integrative machine learning models: A perception for sustainable cities

【字体: 时间:2026年04月04日 来源:Sustainable Futures 4.9

编辑推荐:

  精确的空气质量预测是建立可持续城市和健康社区的关键过程。本研究介绍了一种创新的集成机器学习(ML)模型,以克服传统机器学习模型和现有研究在捕捉空气质量指数(AQI)复杂非线性方面的局限性。研究采用加权最小二乘支持向量机与广义回归模型的集成(WLSSVM-GRM

  
精确的空气质量预测是建立可持续城市和健康社区的关键过程。本研究介绍了一种创新的集成机器学习(ML)模型,以克服传统机器学习模型和现有研究在捕捉空气质量指数(AQI)复杂非线性方面的局限性。研究采用加权最小二乘支持向量机与广义回归模型的集成(WLSSVM-GRM)作为AQI预测模型。引入优化多元变分模态分解(OMVMD)方法对输入变量进行分解,以提高预测精度。此外,所提模型使用了一种高效的轻量梯度提升机(LGBM)模型,并结合自适应差分进化的教与学优化算法(SATLDE)来识别影响AQI的最关键特征。所提出的OMVMD-WLSSVM-GRM模型在中国北京、武汉和西安的AQI预测中表现出色,相关系数(R)分别约为0.99、0.97和0.98,优于其他基准模型。同时,该模型达到了较低的极端误差(MaxAE≈97.3、78.3和78.3),以及更好的Vicis对称距离(VSD)稳定性(VSD≈342.6、632.3和638.8)。不确定性分析证实了所提模型的可靠性,具有更小的预测区间和更窄的不确定性范围。总体而言,所开发的模型提供了可靠的空气质量预测,可能有助于加强环境管理并保护社区健康。
在可持续城市发展和公共健康保障的迫切需求下,空气质量预测已成为环境科学与智能计算交叉领域的关键课题。传统统计方法与单一机器学习模型在应对空气质量指数(AQI)数据固有的复杂非线性、非平稳性以及高维特征时存在显著局限,难以满足精准预警与决策支持的高标准要求。现有研究虽已探索多种混合与集成模型,但普遍缺乏一种能同步优化数据分解、特征加权与多模型融合的系统化框架,且在特征选择方法的鲁棒性与优化算法的全局搜索能力方面仍有提升空间。因此,构建一种能够更有效捕捉多污染物时序依赖关系、挖掘关键驱动因素并实现高精度、低不确定性预测的集成模型,对于推动环境管理智能化和落实联合国可持续发展目标(SDGs)具有重要意义。本文的研究背景植根于中国快速城市化进程中日益严峻的大气污染挑战,其核心目标在于通过技术创新突破现有预测瓶颈,为“蓝天保卫战”提供更强大的技术支撑。

研究人员提出并验证了一种名为OMVMD-WLSSVM-GRM的新型集成机器学习框架。该研究首先设计了一种基于LGBM与SATLDE算法的特征选择方法,用于从历史AQI时序中自动筛选最具预测能力的时间滞后变量。其次,引入OMVMD方法对筛选出的多变量输入信号进行同步分解,将其转化为一组包含不同频率特征的本征模态函数(IMFs),从而有效降噪并提取多尺度信息。核心预测模块由WLSSVM和GRM两个子模型构成,其中WLSSVM通过小波核函数和特征加权机制(FWM)捕捉输入与输出间的复杂非线性关系,GRM则利用其线性结构和正则化优势建模线性趋势,最终通过加权聚合策略将两个子模型的预测结果进行融合。研究结论表明,该集成模型在北京、武汉和西安三个城市的AQI七日预测任务中均达到了最优性能,在相关性、误差控制和稳定性方面显著优于包括OMVMD-LSSVM、OMVMD-DRVFL、LGBM和LSTM在内的多种基准模型,并且展现出最小的预测不确定性区间。这一成果证明了该集成框架在处理复杂环境时序数据方面的优越性和鲁棒性,为开发可靠的空气质量预报系统提供了新的有效途径。

本研究的主要关键技术和方法包括:第一,基于SATLDE优化的LGBM特征选择方法,用于从十个可能的时间滞后中自动确定对预测AQI(t+7)最重要的六个特征。第二,采用SATLDE算法优化的OMVMD方法,对选定的多变量输入序列进行分解,生成多个本征模态函数(IMFs)作为模型输入。第三,构建WLSSVM-GRM集成预测模型,其中WLSSVM采用小波核函数和特征加权机制(FWM),GRM为广义回归模型,两者通过加权聚合结合。第四,利用SATLDE优化算法对所有机器学习模型(包括WLSSVM-GRM、LSSVM、DRVFL、LGBM、LSTM)的关键参数进行寻优。研究数据来源于中国空气质量在线监测分析平台(http://www.aqistudy.cn/),涵盖北京、武汉、西安三个城市2014年1月1日至2018年12月31日的每日AQI及六项污染物(PM2.5, PM10, SO2, NO2, O3, CO)数据。

**4.1 特征选择结果**
研究人员利用LGBM-SATLDE方法对北京、武汉、西安三地AQI数据的十个时间滞后特征进行重要性评估。结果显示,对于未来七天(t+7)的AQI预测,三个城市均筛选出六个关键时间滞后特征。例如,在北京,被选中的特征为AQI-B(t-5)、AQI-B(t)、AQI-B(t-2)、AQI-B(t-3)、AQI-B(t-10)和AQI-B(t-1)。这一结果表明,近期与中长期的历史AQI信息对于预测未来一周的空气质量至关重要。

**4.2 数据分解与模型输入**
基于特征选择的结果,研究人员使用OMVMD方法对各城市选出的六个AQI滞后变量序列进行同步分解。通过SATLDE算法优化,确定了各城市OMVMD的最佳参数:北京(k=10, φ=1210),武汉(k=10, φ=1302),西安(k=9, φ=1350)。分解过程将每个城市的六个输入变量转化为多个本征模态函数(IMFs),例如北京和武汉生成60个IMFs作为模型的最终输入,西安生成54个IMFs,有效实现了复杂非线性信号的降维与特征增强。

**4.3 模型性能评估**
研究人员使用七种统计指标(R, RMSE, MAPE, IA, NSE, MaxAE, VSD)对多种机器学习模型(包括集成模型与基础模型)在三个城市的AQI预测任务中进行评估。结果显示,OMVMD-WLSSVM-GRM模型在所有城市和所有指标上均表现最优。在北京,其测试集相关系数R达到0.992,RMSE为6.093;在武汉,测试集R为0.973;在西安,测试集R为0.981。与次优模型OMVMD-LSSVM和OMVMD-DRVFL相比,OMVMD-WLSSVM-GRM在极端误差(MaxAE)和稳定性(VSD)方面也表现出明显优势。未经OMVMD分解的基础模型(如WLSSVM-GRM, LSSVM, LSTM)性能显著下降,证明了OMVMD数据预处理的有效性。

**4.4 不确定性分析与模型比较**
为定量评估预测可靠性,研究人员进行了不确定性分析。通过计算预测区间和差异指数(DIF),结果表明WLSSVM-GRM模型在三个城市中均展现出最小的预测不确定性范围(例如,北京为[58.67, 118.26]),显著优于其他模型如LGBM和LSTM。相对误差范围(RER)的小提琴图分析也证实WLSSVM-GRM的预测误差分布最窄、最集中。此外,利用多准则决策方法VIKOR和PROBID对模型进行综合排名,OMVMD-WLSSVM-GRM在所有城市均获得最高平均分(1.0),被一致评为最佳模型。泰勒图(Taylor diagram)可视化分析同样显示,WLSSVM-GRM的点最接近参考点,表明其具有最高的相关性、与观测值最匹配的标准差以及最低的中心化均方根误差(cRMSE)。

综合讨论与结论部分,本研究成功开发并验证了一种名为OMVMD-WLSSVM-GRM的新型集成机器学习框架用于空气质量指数预测。该模型通过整合先进的特征选择、多变量信号分解和加权模型集成技术,有效克服了传统方法在处理AQI数据复杂非线性方面的不足。研究证实,该模型在北京、武汉和西安三个具有不同地理和社会经济特征的城市中均取得了卓越的预测精度(测试集R值在0.973至0.992之间)和极低的预测不确定性,其性能显著优于单一机器学习模型及其他混合模型。研究结论强调,所提出的集成框架能够可靠地捕捉AQI的时序动态和关键驱动因素,为城市空气质量精准预报和早期预警提供了强大的工具。未来研究方向可包括将该模型应用于实时预测系统、扩展至更多污染指标与地区,以及进一步优化特征选择策略以支持更具针对性的环境管控政策制定。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号