噪声污染是影响人类社会的第三大主要污染源,仅次于空气污染和水污染。在高密度城市中,噪声污染是一种广泛存在但被低估的环境健康危害,对公众健康构成重大风险。世界卫生组织(WHO)已将噪声污染确定为对人类健康和福祉的严重威胁。先前的研究已经证实,噪声暴露与心血管疾病(Münzel等人,2018年;Münzel等人,2021年)、儿童认知能力下降(Clark等人,2012年;Thompson等人,2022年;Welch等人,2023年)、心理健康状况恶化以及睡眠障碍(Dzhambov和Lercher,2019年;Hahad等人,2025年)之间存在直接关联。
随着全球城市化的加速,预计到2050年全球68%的人口将居住在城市(Zhang等人,2021年)。噪声污染的空间范围和强度正在扩大,尤其是在快速发展的全球南方大城市中,而这些地区的监管框架和监测基础设施仍然不足(Li等人,2022年)。噪声污染包括多种类型,其中交通噪声是最具影响力的来源之一。高密度城市中的交通噪声受到就业与住房不平衡、交通系统设计以及隔音材料采用情况等多种因素的影响,这对人类健康造成了显著影响。准确评估城市声景对于评估暴露水平和不平等现象至关重要,特别是保护儿童、老年人以及有健康问题的人群(Tang和Li,2024年;Wang等人,2022年;Wang等人,2024年)。然而,在城市尺度上进行全面的交通噪声制图仍面临重大实际挑战(Wei等人,2016年;Yang等人,2020年)。
现有研究主要依赖于三种方法框架,每种方法都有其根本局限性。第一种方法基于物理因素的模拟模型,需要大量数据支持,包括交通流量信息、路面特征和道路等级等数据,因此需要复杂的数据预处理程序(Kang等人,2016年;Bello等人,2019年;Korpilo等人,2024年)。对于一个10平方公里的城市区域,数据采集成本通常超过数万美元,计算复杂性限制了其在大范围应用中的可行性。第二种方法利用密集的传感器网络(Li等人,2025年),虽然数据预处理要求较低,但需要数千个监测站点,导致每年设备维护和数据管理的巨额成本(Wei等人,2016年;Wang等人,2025年)。这种方法仅覆盖选定的关键区域,存在较大的空间覆盖缺口,对大多数市政当局来说在经济上不可行(Leach等人,2024年;Song等人,2024年)。此外,这两种方法都存在严重的数据公平性问题:噪声暴露评估主要集中在全球北方的富裕城市,而90%的城市人口增长发生在亚洲和非洲,这些地区的环境监测较为稀少或不存在(Hammer等人,2014年;Casey等人,2017年)。这种数据可用性的地理差异限制了受其他环境健康风险影响的社区减少噪声策略的发展。
第三种方法采用土地利用回归(LUR)模型。这种统计方法利用回归框架根据土地利用类型、道路交通密度和建筑高度等因素估算噪声水平(Wang等人,2024年;Kumar和Kolhe,2025年)。然而,LUR模型考虑的因素相对有限,无法捕捉非线性的物理相互作用(例如地形反射和植被吸收声音)。它们在不同城市之间的适用性较差,且需要大量的本地校准数据集(Zhang等人,2022年)。
地理空间人工智能(GeoAI)和机器学习方法(Janowicz等人,2020年;Lan和Cai,2021年;Liu和Biljecki,2022年;Yin等人,2020年)以及多源地理空间大数据的进步为理解和建模城市噪声提供了新的途径。广泛可用的遥感图像(Chen等人,2025年;Zhao等人,2026年)、街景图像(Huang等人,2024年;Zhuang等人,2024年)和噪声投诉数据(Zhang等人,2024年)提供了一些新的解决方案。与前面介绍的三种方法相比,基于地理标记图像(街景图像或航拍图像)的方法能够在空间覆盖和建模精度之间取得更好的平衡(Zhang等人,2026年;Zhang和Kwan,2025年),显示出巨大的实际应用潜力。然而,这些新兴方法仍存在局限性。所使用的图像数据通常仅包含可见的RGB波段,限制了模型对噪声产生背后物理机制的理解(Lu等人,2025年)。
准确的城市噪声建模本质上是一个涉及多物理因素(或多物理场)的耦合问题,涉及复杂过程,如源特性(例如车辆行驶速度)(Lan和Cai,2021年)、声波传播(例如高密度摩天大楼产生的峡谷效应)(Yuan等人,2019年;Benocci等人,2020年)、环境吸收和气象条件。这不仅仅是一个视觉模式识别任务。尽管现有的基于RGB图像的视觉基础模型(例如在遥感图像上预训练的视觉变换器模型)(Siméoni等人,2025年)可以在噪声建模任务中捕捉到建筑形态和道路布局等视觉特征,但它们无法直接感知上述关键的物理过程(图1)。
地理空间基础模型(GeoFMs)的出现代表了地球观测分析领域的范式转变,为处理数据来源稀少的环境建模挑战提供了新的能力(Mai等人,2024年;Janowicz等人,2025年)。与在特定任务标记数据集或仅基于光学图像训练的传统深度学习模型不同,GeoFMs利用大规模多模态地球观测数据进行自我监督预训练,并且可以轻松泛化到其他任务(如土地利用分类、地表温度估算、农田和绿地识别)(Zhang等人,2023年),基于零样本或小样本学习。新发布的Google AlphaEarth基金会(AEF)模型(Brown等人,2025年)在包含九种传感器模态(Sentinel-2多光谱、Sentinel-1 SAR、LiDAR、MODIS、ERA5气象再分析等)和一个非结构化文本来源(维基百科)的30亿条观测数据上进行预训练,有效捕捉了人类社会与城市建成环境之间的物理耦合过程(Lian等人,2026年)。
通过隐式编码这些跨模态依赖性,地理对比学习预训练过程最大化了共位传感器观测数据之间的信息相似性(Huang等人,2024年;Qin等人,2025年)。像AlphaEarth这样的GeoFMs可以为地球表面的每个10×10米网格单元生成一个64维嵌入向量。这个向量可以将地球观测(EO)知识转化为可量化的“语义空间”,基于最少的本地验证数据实现跨区域(甚至跨国)的比较,并促进对未见城市的迁移学习。这种能力是视觉基础模型(例如DINO)(Siméoni等人,2025年)无法实现的,后者仅依赖RGB图像且缺乏特定领域的先验物理知识。
城市交通噪声由多种因素引起。多模态、多物理场的AEF模型整合了来自Sentinel-2多光谱、SAR、LiDAR和ERA5气象数据的传感器信息,有助于建立传感器观测与声学环境之间的隐式映射关系。AEF能够捕捉到SAR纹理中的街道峡谷声反射、多光谱数据中的植被效应以及天气观测中的大气条件。与基于RGB的视觉模型不同,这种方法编码了支配声音传播的通用物理原理,从而实现了跨城市的稳健迁移学习。
总之,本研究通过提供在数据有限环境中的噪声污染评估工具,推动了可持续发展目标11(可持续城市和社区)的实现。通过降低传感器部署成本,这种方法使得在全球南方之前无法实现的城市范围交通噪声制图成为可能。小样本迁移学习范式可以推广到其他受稀疏真实数据限制的传统建模方法所面临的城市环境健康挑战(例如空气质量、城市热岛效应、洪水)。