《Environmental Pollution》:Spatiotemporal Characteristics and Driving Factors of Coal-Burning Hotspots in Shandong Province Revealed by Multi-Source Data and Machine Learning
编辑推荐:
煤燃烧热点识别基于DSAF模型与孤立森林算法融合框架,通过多源数据融合实现山东1km×1km分辨率地表SO?浓度动态估算,发现2022-2024年浓度下降14%,冬季春升高浓度区与工业集群吻合,供暖期农村热点显著扩张,为精准管控提供技术支撑。
赵若北|李鹏飞|任宇超|吴彤|于阳春|彭彦波|张青竹|王桥|王文星
中国山东省大学生态与环境研究院大数据研究中心,青岛市266003
摘要
煤炭燃烧排放是导致中国空气污染的主要因素,尤其是在住宅领域。这些排放物分布广泛且监测不力,使得传统方法难以准确识别污染源。本研究提出了一种结合深度自注意力融合模型(DSAF)和隔离森林算法(IForest)的框架,利用二氧化硫(SO2作为示踪剂来识别燃煤热点区域。该框架应用于分析2022年至2024年山东省每日SO2浓度的时空分布,并识别出燃煤热点。DSAF模型整合了卫星遥感、地面监测和气象数据,实现了高精度的SO2浓度估算,并具有完整的时空覆盖能力。IForest算法结合多维空间特征,识别出SO2浓度异常高的区域,并生成了省级热点分布图。通过整合工业设施位置和城乡数据,进一步分析了空间分布模式。结果表明,年平均SO2浓度从2022年的10.15 μg/m3下降到2024年的8.73 μg/m3(减少了14.00%),冬季和春季浓度较高。非供暖季节的热点主要集中在化工、钢铁和重工业集群地区,这与工业设施分布高度一致。供暖季节期间,热点范围显著扩大,尤其是在农村地区,表明民用散煤使用对空气污染有叠加影响。本研究开发的方法为精细化煤炭排放管理和协调控制PM2.5等二次污染物提供了技术支持。
引言
中国以煤炭为主的能源结构使得煤炭燃烧成为大气污染的主要来源。作为世界上最大的煤炭生产和消费国,电力、焦炭生产和工业锅炉行业在广阔区域内长期大量排放二氧化硫(SO2)、氮氧化物(NOx)和颗粒物(Guo et al. 2023a),威胁人类健康和生态系统(Xue et al. 2023, Chen et al. 2020)。山东省拥有密集的燃煤电厂网络,是中国的排放大省之一(Xiong, Jiang and Gao 2016, Chen et al. 2014)。除了工业源外,分散的居民燃煤也带来了额外的管理挑战,并被认为是中国北方冬季PM2.5浓度升高和过早死亡的主要原因(Cao et al. 2025, Li et al. 2022, Li et al. 2021, Liu et al. 2016)。尽管清洁供暖项目有效减少了民用散煤的使用(Weng et al. 2022),但由于经济成本、能源可及性和家庭习惯的差异,民用散煤燃烧仍时有发生(Zhou et al. 2021b, Tang et al. 2021)。因此,开发一种能够准确评估煤炭相关污染强度和空间分布的技术框架具有重要意义。二氧化硫(SO2)主要来自煤炭燃烧,在空气污染和能源研究中一直被用作煤炭燃烧活动的示踪剂(S et al. 2024, Jion et al. 2023, Smith et al. 2011, Shi et al. 2020)。同时,其他工业来源如石油化工生产、钢铁制造和水泥生产也会产生SO2排放。因此,这里使用SO2作为煤炭相关燃烧活动的指标,而不仅仅是代表煤炭燃烧本身。除了是酸雨的主要前体外,SO2还能形成硫酸盐气溶胶,促进PM2.5的形成,并通过辐射强迫改变区域气候(Organization 2021, Wang, Eriksson and Luo 2023, Yu et al. 2018)。由于其短暂的大气寿命,SO2地面浓度能可靠反映当地燃烧强度,是评估能源结构调整政策效果的重要指标。然而,中国地面监测网络的密度有限,限制了捕捉地面SO2浓度细尺度变化的能力(Yu et al. 2018),特别是难以检测到隐藏的居民燃煤排放。
卫星遥感通过其大范围和近乎实时的覆盖能力,为地面监测提供了重要补充。然而,从卫星传感器获取的SO2柱浓度受到云层覆盖、传感器异常和垂直剖面不确定性等因素的影响,导致与地面浓度之间的复杂非线性关系(Martin 2008)。有限的空间分辨率可能会掩盖局部细尺度变化,使得在高污染区域的污染平均值化,从而限制了其在近地面空气质量评估中的直接应用(Mushtaq et al. 2024)。
为了解决这一挑战,化学传输模型(CTMs)和机器学习(ML)技术被广泛用于重建地表污染物分布。CTMs模拟痕量气体和气溶胶的传输、扩散和化学转化,但受到排放清单质量和模型参数不确定性的限制(Watson et al. 2025, Wang et al. 2020b)。近年来,ML模型在结合卫星观测、气象数据、地理信息和社会经济因素的情况下,对PM2.5、NO2和O3等污染物的拟合和泛化性能表现出色(Rasp, Pritchard and Gentine 2018, He et al. 2022, Keller and Evans 2019)。最近的全球研究综合表明,纳入这些环境和社会经济协变量可使平均准确率提高12%(Bai et al. 2023),并且多源数据融合对于在中国全范围内解析细尺度污染模式至关重要(Wei et al. 2022)。然而,SO2柱浓度受到高排放源的强烈影响(Zhao et al. 2024),对近地面居民燃煤排放的响应较弱(He et al. 2025),大多数模型产生的空间平滑预测限制了与居民燃煤相关的局部变化的分辨率。
污染热点识别是空气质量管理的重要组成部分。传统的阈值方法、空间自相关分析和聚类分析技术虽然简单,但在稳定性和泛化能力方面存在局限(Zhang and Yang 2022, Pattnaik and Pinsky 2025)。IForest算法通过随机划分特征空间并优先隔离罕见且易于分离的样本来检测异常值,表现出对高维数据的强适应性和在识别SO2异常高值区域的稳健性能,同时抑制缓慢变化的背景干扰(Liu, Ting and Zhou 2012a)。
为了解决这些限制,本研究提出了一个结合深度自注意力融合模型(DSAF)和IForest的集成框架来识别燃煤热点,开展了三个方面的工作。首先,使用DSAF模型融合多源数据,实现了山东省每日地表SO2浓度的连续高精度估算,空间分辨率为1 km × 1 km。接下来,构建了一个多维特征空间,结合了像素级别的SO2浓度及其空间特征,并通过结合IForest异常分数和绝对浓度阈值的双阈值策略识别燃煤热点。最后,通过将工业点分布与城乡空间数据叠加,分析了识别出的热点的空间分布特征,为精细化管理燃煤污染提供了科学依据。
研究区域
山东省位于中国东海岸(34°22′N~38°25′N, 114°47′E~122°43′E),总面积为15.58×104平方公里。该省中部地区以山区为主,西南部和西北部为低洼平原,东部为起伏的丘陵。作为中国人口最多的省份之一,以及工业化 and 城市化程度较高的地区,其煤炭消费量长期位居全国前列。
DSAF模型的验证结果
图3展示了DSAF模型与经典机器学习模型XGBoost之间的全面比较。DSAF在所有核心指标上均优于XGBoost,R2 = 0.69,MAE = 1.91 μg/m3,RMSE = 3.11 μg/m3,而XGBoost的相应指标分别为R2 = 0.69,MAE = 2.21 μg/m3,RMSE = 3.38 μg/m3,分别减少了13.5%和7.99%。DSAF模型的预测结果更紧密地聚集在1:1线上(图3h, 3i),尤其是在高浓度区域。
结论
本研究采用多源数据构建了一个结合DSAF模型和IForest算法的框架,实现了2022年至2024年山东省SO2浓度的高精度(1 km × 1 km)估算,并准确识别了燃煤热点。通过叠加工业设施分布和城乡空间数据,全面分析了燃煤热点的时空特征和驱动因素。DSAF模型有效
作者贡献声明
王桥:撰写 – 审稿与编辑,监督,方法论,概念化。于阳春:资源获取,调查,数据管理。吴彤:资源获取,调查,数据管理。张青竹:撰写 – 审稿与编辑,监督,资金获取,概念化。彭彦波:撰写 – 审稿与编辑,监督,概念化。赵若北:撰写 – 初稿,可视化,软件开发,方法论,正式分析。任宇超:撰写 – 初稿,软件开发
未引用的参考文献
Alsaber et al., 2021; Guo et al., 2023b; Liu et al., 2012a; Liu et al., 2012b; Liu et al., 2008; Rasp et al., 2018; S et al., 2024; Sezer Tural?o?lu et al., 2005; Wang et al., 2023; Xiong et al., 2016.
数据可用性声明
本研究的源代码、预训练模型权重和数据集可在Zenodo上公开获取:
https://doi.org/10.5281/zenodo.18919762利益冲突声明
? 作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本研究得到了
国家自然科学基金(项目编号:22236004)和泰山学者计划(项目编号:ts201712003)的财政支持。