基于K最近邻(K-nearest neighbor, KNN)算法加权长短期记忆网络(long short-term memory, LSTM)的PM2.5浓度预测

《Atmosphere》：PM2.5 Prediction Based on LSTM Weighted by K-Nearest Neighbor Algorithm

【字体：大中小】 时间：2026年06月10日 来源：Atmosphere 2.3

编辑推荐：

　　准确预测PM2.5浓度对公共卫生及环境保护至关重要，尤指对重污染期间医护人员调配管理的参考意义。然而PM2.5时间序列的非线性、波动性与复杂性使预测颇具挑战。研究人员提出一种基于K最近邻(K-nearest neighbor, KNN)算法加权的长短期记忆(l

准确预测PM2.5浓度对公共卫生及环境保护至关重要，尤指对重污染期间医护人员调配管理的参考意义。然而PM2.5时间序列的非线性、波动性与复杂性使预测颇具挑战。研究人员提出一种基于K最近邻(K-nearest neighbor, KNN)算法加权的长短期记忆(long short-term memory, LSTM)神经网络模型（即加权KNN-LSTM模型）用于有效预测PM2.5浓度时间序列。首先依据欧氏距离(Euclidean distance)在数据时域内搜寻各时间点的K个最近邻，鉴于空间过程中邻近观测值影响通常强于远端值，据此赋予各近邻权重以量化其在分析中的相对重要性。经加权KNN算法预处理后的初始数据被重组转化为规模为原始数据K倍的重构数据集。模型训练所用数据与评估预测性能所用测试集完全独立，测试集未参与任何训练过程以确保预测效能评估的真实可靠。随后在此新数据集上训练LSTM神经网络以增强泛化能力。实验结果表明加权KNN-LSTM模型在PM2.5浓度预测中表现出优异性能。需注意评估模型性能的数据集与训练数据严格独立，该分离确保所报准确度反映真实预测能力而非单纯拟合优度。该模型为南昌市小时级PM2.5浓度预测提供技术参考，预测结果可作为区域空气质量监测的辅助参考；其在重污染预警中的应用需结合气象等多源数据进一步优化验证，为制定动态减排政策提供可靠数据支撑。

论文解读：基于加权K最近邻(KNN)重构数据的长短期记忆网络(LSTM)对南昌市PM_2.5浓度的时序预测研究

一、研究背景与意义

PM_2.5（细颗粒物）是雾霾天气的主要贡献者，其浓度升高危害人体健康并引致气候变化。PM_2.5的形成涉及一次排放与二次生成（SO₂、NO_x、VOCs等在大气中转化）的复杂理化过程，且受温度、风速、降水等气象因子及人类活动显著影响。传统预测方法如线性回归、自回归积分移动平均(autoregressive integrated moving average, ARIMA)模型及BP神经网络在处理PM_2.5非平稳、非线性时间序列时误差较大、效率较低。虽然深度学习模型如LSTM能捕捉长期依赖关系，但现有研究多忽视时间节点间局部相似性对特征学习的增益，且部分混合模型（如EEMD-ALSTM）计算复杂度高，不适用于监测数据及算力有限的中小城市。本研究旨在探讨通过引入基于K最近邻(K-nearest neighbor, KNN)算法的加权数据重构策略提升经典LSTM对PM_2.5时序相关性捕捉能力及预测精度的可行性，构建轻量级加权KNN-LSTM模型，为区域空气质量预测提供易部署的技术方案。本文发表于《Atmosphere》期刊。

二、主要关键技术方法

研究人员采用南昌市2017年2月1日至2018年12月22日逐小时PM_2.5、PM₁₀、SO₂、CO、NO₂、O₃浓度数据（共15565个样本，80%训练、20%独立测试）。方法核心为：①计算时间点间欧氏距离，依距离倒数分配权重给K个最近邻；②将各时间点自身特征与K个加权最近邻特征拼接，重构为原维度K倍的新输入矩阵；③搭建含两层LSTM（每层200节点）及两层全连接层（256节点，tanh激活）的神经网络，Dropout=0.3，以均方误差(mean squared error, MSE)为损失函数、AdamW优化器训练；④通过K值敏感性分析确定最优K=3，并以平均绝对误差(mean absolute error, MAE)、平均绝对百分比误差(mean absolute percentage error, MAPE)、均方根误差(root mean square error, RMSE)及决定系数(coefficient of determination, R²)评估，对照模型含RNN、标准LSTM、门控循环单元(gated recurrent unit, GRU)及无加权KNN-LSTM。

三、研究结果

3.1. 相关性分析(Correlation Analysis)

经Pearson相关系数分析，PM_2.5与PM₁₀(r=0.62)、CO、NO₂呈较强正相关，与SO₂呈中等正相关(r=0.56)，与O₃线性相关较弱但仍纳入模型以学习非线性关系，证实所选污染物指标适合作输入特征。

3.2. 实验超参数设置(Experimental Hyperparameter Settings)

K值敏感性测试显示K=3时MAE、MAPE、RMSE最低，预测效果最优；K>3时误差上升。取K=3时原始6维特征扩展为18维输入。模型经调参确定为双LSTM层(200单元)+双全连接层(256单元)，Batch Size=512，Epoch=100，Dropout=0.3。

3.3. 预测性能与实验比较(Prediction Performance and Experimental Comparison)

以历史4个时刻及其对应K近邻重构数据作为输入预测下一时刻PM_2.5浓度。加权KNN-LSTM测试集结果：MAE=2.7719 μg/m³，MAPE=0.1127，RMSE=3.9655 μg/m³，R²=0.965（解释96.5%方差）。Diebold-Mariano检验及t检验表明加权KNN-LSTM显著优于标准LSTM(p<0.05)及无加权KNN-LSTM(p<0.05)。对测试集中32个重度污染样本(PM_2.5>115 μg/m³)预测误差高于整体（MAE=4.23，RMSE=5.68），表明极端值捕捉能力待提升。对比实验中各基准模型误差均高于加权KNN-LSTM，验证了加权KNN数据重构策略对LSTM预测精度的统计学显著提升。

四、讨论与结论总结

研究人员指出本模型局限性在于：未纳入气象因子（风速、湿度、逆温、降水等）及人类活动指标（交通流、工业排放强度、节假日），限制了物理机理解释性与对突发重污染的捕捉能力；仅在南昌市（南方典型城市）验证，未做跨地域（北方供暖城市、沿海、山地等）适用性测试；对极值和突发重污染事件预测精度不足，暂不能直接支持重污染预警，需融合多源数据与多模型优化。未来研究拟扩充多源异构数据输入、开展多城市跨区域验证、补充近期数据重新训练并更新模型。

结论译文：

本研究针对PM_2.5浓度与多因素间非线性关系难捕捉及传统单一方法精度不理想的问题，提出结合加权KNN与LSTM的深度学习模型预测PM_2.5浓度。研究人员先分析南昌市PM_2.5与其余五种大气污染指标的相关性，利用KNN算法寻找各时间点最近邻并按距离公式计算权重，对原始及加权数据进行K倍数据重构，将重构数据输入LSTM构建加权KNN-LSTM模型并应用于南昌市PM_2.5浓度预测实践。研究严格遵守训练与评估数据完全独立原则（测试集未参与训练），确保评估结果反映模型真实预测性能而非拟合效果。实验结果表明加权KNN-LSTM模型取得显著改进，该结论具稳健性因评估基于独立于训练集的数据集，符合模型开发与性能评估须用不同数据以避免过拟合及确保预测质量科学原则。

热点排行