《Remote Sensing Applications: Society and Environment》:Performance Assessment and Application of AlphaEarth Embedding In Air Quality - Case of PM
2.5 in Changchun
编辑推荐:
PM2.5高分辨率暴露评估中AlphaEarth嵌入与MODIS AOD的混合模型优势研究。通过XGBoost模型对比分析,传统基线模型(R2=0.849)存在显著正偏差(NMB=0.748%),而混合模型(Embeddings+MODIS AOD)在保留67%基准模型R2优势的同时将系统偏差降低38%。研究揭示嵌入模型可突破传统气象数据粗分辨率限制,实现50米精度映射,并发现长春市2017-2024年间PM2.5年均下降35%,其中11.4%区域热点与城市/工业区用地分布高度相关。关键突破在于识别出150米范围内PM2.5梯度可达10μg/m3的暴露陡坡现象。
作者:方春生、本杰明·M·布亨德瓦、法尔哈娜·里亚兹、王军
吉林大学新能源与环境学院,长春130012,中国
摘要
长期暴露于细颗粒物(PM2.5)是重大的全球健康风险,因此需要精确的暴露量估算。本研究对中国范围内使用Google DeepMind的AlphaEarth基础模型进行了一系列评估和应用。我们在四种不同场景下开发了XGBoost模型:一种是基于传统预测因子(MODIS AOD、ERA5气象数据、土地利用数据)的基线模型;另一种仅使用AlphaEarth嵌入的模型;第三种是结合了递归特征消除(RFECV)技术的嵌入模型;第四种则是将AlphaEarth嵌入与MODIS AOD数据相结合的混合模型。基线模型的点级准确率较高(R2 = 0.849,RMSE = 5.37 μg/m3),但存在持续的偏差(负偏差NMB = 0.748%)。仅使用嵌入模型的偏差显著降低(NMB = -0.191%),但准确率略有下降。关键的混合模型(嵌入 + MODIS AOD)成功结合了两种方法的优点,恢复了基线模型67%的准确率优势,并将系统偏差降低了38%。基于嵌入的方法的优势在于其能够实现高分辨率的地图绘制。我们以长春市2017年至2024年的数据为例进行了验证,发现该市PM2.5浓度因实施清洁空气政策而显著下降了35%。聚类分析显示,持续的高污染热点区域(占城市面积的11.4%)与城市/工业用地密切相关。高分辨率地图还揭示了明显的“暴露梯度”,某些区域的PM2.5浓度差异在短短150米的距离内就超过了10 μg/m3,而这种差异在低分辨率方法中是无法检测到的。因此,虽然传统预测因子适用于粗尺度评估,但结合基础模型嵌入的方法能够提供更准确、高分辨率的估计结果,为城市规划、环境正义分析以及超局部暴露评估提供了强大的工具。
引言
细颗粒物(PM2.5)的长期暴露是主要的全球环境健康风险,与心血管疾病、呼吸系统疾病、中风和过早死亡密切相关,造成了巨大的疾病负担。全球评估表明,每年有数百万人死于PM2.5的影响,而中国承担了其中相当大的比例(Burnett等人,2018年;Cohen等人,2017年;Donkelaar等人,2021年)。作为中国东北部的重要城市,长春市长期面临严重的细颗粒物污染问题,尤其是在冬季(Fang等人,2024年)。这些发现强调了精确暴露量估算对公共卫生规划和影响评估的重要性。
PM2.5的高空间变异性进一步凸显了精确估算的必要性。在同一城市内,由于交通走廊、工业场所、居民供暖和局部气象条件等因素,不同区域的浓度可能差异巨大。传统的地面监测网络(如中国广泛的数千个监测站)虽然能够提供高质量的点测量数据,但覆盖范围过于稀疏,无法捕捉到这种细尺度的空间结构,导致许多城市社区的监测数据存在明显缺失(Di等人,2019年;Xu等人,2025年;Yu等人,2023年)。尽管化学传输模型(CTM)如CMAQ和WRF-Chem可以模拟连续的PM2.5分布,但它们的分辨率通常较低(几公里到几十公里),并且受到排放清单和化学机制不确定性的影响,限制了其在社区尺度上的应用效果(Diao等人,2019年;Jiang和Yoo,2018年;Rivera等人,2022年;Zhong等人,2016年)。为了弥补这一不足,遥感技术与机器学习的结合已成为重要的补充方法。卫星提供的气溶胶光学厚度(AOD)数据具有广泛的空间覆盖范围,将AOD与气象和土地利用预测因子相结合的模型已成功生成高分辨率的PM2.5地图。集成算法(如随机森林和XGBoost)提高了空间完整性并减少了误差(Di等人,2019年;Just等人,2020年;Lin等人,2022年;Pendergrass等人,2022年)。然而,仍存在一些挑战:AOD与地面PM2.5之间的关系复杂,受气溶胶类型、垂直混合和湿度等因素影响;此外,许多AOD产品的原始分辨率较低(1-10公里),这会模糊局部排放梯度以及城乡之间的差异。模型还可能受到监测站分布不均的影响,在郊区或农村地区的表现较差(Donkelaar等人,2021年;Lyapustin等人,2018年;You等人,2016年;Zheng等人,2017年)。因此,基于AOD的统计方法虽然有价值,但在超局部尺度上往往无法完全捕捉到地表污染的详细空间结构。
近期在卫星遥感和人工智能领域的进展为这一问题提供了新的解决方案,例如Google DeepMind的AlphaEarth嵌入技术(Brown等人,2025年;Google Earth AI,2025年)。该技术生成了密集的年度特征向量,汇总了每个像素的多传感器光谱、结构和环境信息(表S1)。具体而言,模型将每个约10米的像素编码为64维特征向量,融合了来自多光谱和雷达传感器、植被指数、地形数据以及气候背景的信息(Google Earth Engine,未注明日期)。这些层设计用于应对常见的数据缺失问题(如云层覆盖),同时全面总结了每个地点的光谱、季节性和结构特征。先前的研究和最新应用表明,这类嵌入可以作为土地覆盖分类、生物量估算和环境绘制的强大预测工具,并可成功应用于数据稀疏地区的空气质量预测(Alvarez等人,2025年;Brown等人,2025年)。重要的是,嵌入维度隐含了与土地覆盖、植被物候、基础设施和气候相关的信息,这些因素都与排放和大气行为相关,因此它们提供了一种紧凑的、自动生成的预测集,大大减少了手动特征工程的需求(Brown等人,2025年)。
尽管这些基础模型嵌入在高质量空气质量地图绘制方面具有潜力,但其性能尚未经过严格的基准测试。目前尚不清楚它们的自动特征提取能力是否能够匹配或超越现有的科学驱动的预测因子,尤其是在PM2.5估算这一特定任务上。这带来了实际限制:许多传统预测因子(如ERA5气象数据)的分辨率较低(几十公里),无法直接生成高分辨率(10-50米)的地图。
因此,本研究有两个相互关联的目标:(1)方法学评估:使用统一的评估标准和简化的网格,比较AlphaEarth嵌入与基于传统预测因子的基线模型的预测能力,包括使用MODIS AOD、ERA5气象数据、土地利用数据和人为指标的基线模型;通过递归特征消除和交叉验证选出的优化嵌入子集;以及结合MODIS AOD数据的嵌入模型。(2)实证应用:应用AlphaEarth嵌入预测集生成和分析2017年至2024年中国长春市的高分辨率(50米)PM2.5年度地图,从而分析时空趋势、识别污染热点并探讨暴露不平等的细微差异。
AlphaEarth嵌入虽然不包含MODIS AOD数据,但它们提供了前所未有的高分辨率表面环境、地形和气象因素的编码,对高精度机器学习映射非常有用。为了测试柱状气溶胶信息的影响,我们增加了另一种场景(嵌入 + MODIS AOD)。因此,本研究评估了嵌入技术在空气质量研究中的性能和应用,并建议未来可以整合AOD数据和Sentinel-5P产品等改进措施。
研究区域:全国模型训练与长春案例研究
本研究采用双层地理方法,以平衡全国代表性と局部高精度应用的需求。
全国范围模型开发
用于PM2.5估算的机器学习模型是基于覆盖整个中国的综合数据集开发的,并经过了验证(图1)。这一全国范围的框架有两个关键作用:首先,它允许对不同预测因子进行稳健的空间交叉验证。
全国模型预测性能
图3展示了四种建模方案的比较评估结果。在监测网络层面上,基于传统预测因子的基线模型的R2值为0.849,RMSE为5.37 μg/m3;仅使用AlphaEarth嵌入的模型的R2值为0.790,RMSE为6.52 μg/m3;而结合AlphaEarth嵌入和MODIS AOD数据的混合模型的R2值为0.830,RMSE为5.60 μg/m3,恢复了嵌入模型与基线模型之间67%的差异。
方法学权衡:嵌入技术与传统预测因子
图S2a和图S2b表明MODIS AOD是最强大的预测因子,这与大量文献的结果一致,这些文献强调了柱状气溶胶负荷作为地表PM2.5主要预测因子的关键作用(Di等人,2019年;Donkelaar等人,2010年;Yang等人,2024年)。仅使用嵌入模型的性能与基线模型之间存在差距,说明64维嵌入向量虽然全面编码了与地表相关的光谱、季节性和结构信息,但仍存在不足。
局限性
本研究存在一些局限性,为未来的研究指明了方向。首先,尽管AlphaEarth嵌入实现了高分辨率映射,但混合模型的性能仍受到MODIS AOD产品较低分辨率(约1公里)的限制,可能导致局部污染梯度模糊。其次,嵌入模型本身缺乏对大气气溶胶丰度的明确表示,从而在强污染热点区域低估了污染程度。
更广泛的影响与未来工作
本研究为将新兴的人工智能基础模型整合到现有的环境科学工作流程中提供了实用框架。通过严格评估AlphaEarth嵌入与传统预测因子的结合效果,我们证明了它们的主要价值在于补充而非替代:它们提供了一个高分辨率、能够减少偏差的层,与AOD等关键物理数据相辅相成。这种混合方法标志着向下一代暴露评估工具迈出的重要一步。
结论
研究表明,基础模型嵌入是传统物理预测因子的有力补充,而非简单的替代品。我们的全国范围评估表明,PM2.5估算的最佳策略是结合AlphaEarth嵌入提供的丰富高分辨率环境信息与关键大气测量数据(如MODIS AOD)。这种综合方法减少了系统偏差。
CRediT作者贡献声明
王军:撰写、审稿与编辑、监督、资金筹集。法尔哈娜·里亚兹:数据可视化、数据整理。本杰明·M·布亨德瓦:撰写初稿、软件开发、方法设计、数据分析、概念构建。方春生:撰写、审稿与编辑、监督、资金筹集
未引用的参考文献
Google Earth,2025年;Google Earth Engine,未注明日期。
利益冲突
作者声明没有Nature Portfolio定义的利益冲突,也没有其他可能影响本文结果或讨论的利益关系。
数据可用性
10.5281/zenodo.17722372
研究资金
本研究未获得任何资金支持。
利益冲突声明
作者声明没有已知的可能影响本文研究的财务利益或个人关系。