基于梯度提升回归与SHAP解释的机器学习模型在萨格勒布住宅区PM1预测及关键驱动因子识别中的应用研究

《Toxics》：Comparative Evaluation of Machine Learning Models for Residential PM1 Prediction in Zagreb (Croatia): Identifying Key Predictors and Indoor/Outdoor Dynamics Marija Jelena Lovri? ?tefi?ek, Silvije Davila, Gordana Pehnec, Ivan Be?li?, ?eljka Ujevi? Andriji?, Ivana Bani?, Mirjana Turkalj, Mario Lovri?, Luka Kazensky and Goran Gajski

【字体：大中小】 时间：2026年03月31日 来源：Toxics 4.1

编辑推荐：

　　室内细颗粒物（PM1）污染是影响居民健康的重要风险因素。为评估室内PM1暴露的关键决定因素，本研究在克罗地亚萨格勒布地区开展了一项横断面调查。研究结合了103对室内/室外PM1测量、问卷调查、环境地理数据和化学计量学分析。结果表明，室外PM1是室内浓度的最重要预测因子。梯度提升回归（GBR）模型取得了最优预测性能（测试R2≈ 0.65）。SHAP（Shapley Additive Explanations）可解释性分析进一步识别出室外PM1水平、渗透和扬尘是影响室内PM1浓度的最关键驱动因子。研究成果为制定有针对性的室内空气质量管理和干预措施提供了数据与模型支持。

在如今的城市生活中，人们平均有70%到90%的时间都在室内度过，这使得室内空气质量成为了一个不容忽视的健康“隐形杀手”。尤其是那些直径小于1微米的细颗粒物，也就是PM₁，它们个头虽小，危害却大。由于其极小的粒径，PM₁能够轻松穿过人体呼吸道的层层“防线”，长驱直入，直达肺泡，甚至穿透血气屏障进入血液循环，从而对呼吸系统和心血管系统造成更直接、更严重的损害。然而，与更为常见的PM_2.5和PM₁₀相比，PM₁的研究和监测数据要稀缺得多，尤其是在家庭住宅这个至关重要的“微环境”中。室内的PM₁污染究竟从何而来？是室外空气渗透进来的“不速之客”更多，还是室内人员活动（如烹饪、打扫、抽烟）制造的“本地污染”贡献更大？建筑结构、采暖方式、通风习惯等又扮演着什么角色？这些问题，是精准评估公众健康风险、制定有效室内空气改善策略必须回答的。为此，在“循证驱动的室内空气质量改善”项目框架下，一支由来自克罗地亚萨格勒布大学、安德烈亚·什塔姆帕尔公共卫生学院、萨格勒布“圣灵”大学医院、萨格勒布大学等机构的专家组成的团队，在克罗地亚首都萨格勒布及其周边地区，对103户家庭的室内外PM₁浓度进行了一次“地毯式”测量。他们不仅仅满足于获取浓度数据，更运用了先进的化学计量学、主成分分析、聚类分析等统计工具，并引入机器学习模型进行预测和归因，最终撰写成文，发表在国际期刊《Toxics》上，为我们揭开了住宅内PM₁污染的“神秘面纱”。

为了系统探究住宅室内PM₁污染的决定因素，研究人员主要采用了以下几项关键技术方法：

首先，采用低流量、低噪声的主动采样器，在103户居民住宅的卧/客厅及其对应的室外（如阳台）位置，同步开展了为期一周的PM₁样本采集，获取了成对的室内/室外浓度数据。其次，通过问卷调查收集了建筑特征、居住者行为、通风采暖情况等信息，并结合公开的哥白尼城市地图集数据，生成了描述住宅周边土地用途的变量。最后，运用包括主成分分析、聚类分析在内的多元化学计量学方法对数据进行特征识别和降维，并构建了包括线性回归、支持向量回归、随机森林、梯度提升回归等在内的多种机器学习模型，用于预测室内PM₁浓度。在此基础上，利用SHAP可解释性分析，揭示了各特征变量对预测结果贡献的重要性。

季节性及室内外差异分析

通过比较不同季节的数据，研究发现冬季室外的PM₁浓度中位数和峰值都显著高于非采暖季，出现了明显的浓度“高峰”。然而，室内PM₁的中位数浓度在冬夏两季则相对稳定，并未随室外浓度剧烈波动。这一方面体现了建筑结构对室外污染的部分屏蔽作用，另一方面也暗示了冬季室内可能存在额外的污染源或通风行为变化，削弱了室内浓度对室外污染的“跟随效应”。

化学计量学与主成分分析识别潜在污染源

通过化学计量学和主成分分析，研究人员成功地将庞杂的数据“降维”和“归类”，从中识别出了几个影响室内PM₁浓度的主要潜在因素领域。这些因素包括：住宅面积、室外污染、扬尘（由居住者活动引起）、建筑年代/采暖类型，以及住宅所处的城市环境背景。这一分析为后续的机器学习建模提供了关键的特征变量选择方向。

机器学习模型性能比较

在多种机器学习模型的“同台竞技”中，梯度提升回归模型脱颖而出，表现最为优异。在测试集上，该模型能够解释室内PM₁浓度变化中约65%的方差，表现出了强大的预测能力。这表明，室内PM₁浓度与各影响因素之间的关系并非简单的线性叠加，而是存在复杂的非线性相互作用，而这正是梯度提升这类集成树模型所擅长的。

基于SHAP的关键预测因子识别

如果说梯度提升模型是预测PM₁浓度的“黑盒子”，那么SHAP分析就是打开这个黑盒子的“钥匙”。通过SHAP分析，研究清晰地量化了各个因素对室内PM₁浓度的贡献度。结果显示，室外PM₁浓度是最重要的预测因子。紧随其后的是渗透（反映了室外空气进入室内的难易程度，用“窗户数量/地板面积”的比值来表征）和扬尘（与居住者活动相关的室内尘粒再悬浮）。这意味着，要控制室内PM₁污染，首要任务是控制室外污染源，特别是冬季的交通和采暖排放；其次，需要关注建筑物的气密性和通风管理，减少污染物的渗透；同时，改变居住者的行为习惯，如降低室内活动强度、增加清洁频率等，也能有效减少来自扬尘的“内源”贡献。

归纳与讨论

本研究首次在克罗地亚萨格勒布地区开展了大规模、成对的住宅室内外PM₁浓度调查，填补了该地区在这一关键污染物暴露数据上的空白。研究发现，冬季室外污染排放是驱动室内PM₁水平的重要外部因素，而住宅相关特征和居住者行为则是不可忽视的内部调节因素。通过整合传统的化学计量学与前沿的机器学习及SHAP可解释性分析，本研究不仅建立了一个性能良好的室内PM₁预测模型，更重要的是，系统地识别并量化了各个影响因子的相对重要性。这项研究成果具有重要的实践意义。它指出，未来室内空气质量的管理和干预措施应更具“靶向性”：在室外污染严重的时期，优化通风策略（如减少通风或使用净化后的空气）；通过行为干预（如使用吸尘器代替扫地、减少室内跑动）来减轻扬尘；以及对老旧建筑进行气密性改造，从而更高效、更经济地降低居民的PM₁暴露风险，最终实现保护公众健康的目标。这项研究为将环境监测数据、建筑信息、人类行为与先进的机器学习工具相结合，以解决复杂的室内环境健康问题，提供了一个成功的范例。

热点排行