分散模型在预测石油和天然气生产地区区域空气质量监测站周围环境中乙烷浓度方面的表现

《ACS Environmental Au》：Performance of Dispersion Models in Predicting Ambient Ethane Concentrations at a Regional Air Quality Monitor in an Oil- and Gas-Producing Region

【字体：大中小】 时间：2026年03月31日 来源：ACS Environmental Au 7.7

编辑推荐：

　　高分辨率图像下载MS PowerPoint幻灯片评估了四种广泛使用的扩散模型（AERMOD、单方程高斯公式以及两个版本的CALPUFF）在Eagle Ford Shale油气生产区域的一个区域空气质量监测站预测环境烃类浓度的性能。模型性能根据性能目标、气象条件和时间

　　高分辨率图像
下载MS PowerPoint幻灯片

评估了四种广泛使用的扩散模型（AERMOD、单方程高斯公式以及两个版本的CALPUFF）在Eagle Ford Shale油气生产区域的一个区域空气质量监测站预测环境烃类浓度的性能。模型性能根据性能目标、气象条件和时间分辨率的不同而有很大差异。在本研究中评估的模型中，用于估计扩散系数的方法以及模型是基于羽流还是 puff 的方式对模型性能有显著影响。气象和排放输入的不确定性也在模型性能中起着重要作用，但其影响的重要性取决于性能目标。本文提出了一些识别和解决模型不确定性的技术，并为特定应用选择最佳性能模型的方法。

**引言**
在过去二十年里，由于水平钻井和水力压裂技术的改进，美国的油气产量几乎增加了两倍，这些技术使得从页岩和其他致密地层中提取石油和天然气成为可能。(1,2) 像Bakken和Eagle Ford这样的页岩层的生产活动有所增加。(1,3) 随着生产基础设施的迅速扩张，这些地区的空气污染问题日益严重。(4?6) 研究表明，油气活动与挥发性有机化合物（VOCs）、氮氧化物（NOx）、颗粒物（PM）和地面臭氧浓度的升高有关。(7?11) 油气供应链也是人为温室气体（GHG）排放的主要来源，尤其是甲烷。(12,13) 已经在油气生产区域部署了区域空气质量监测站来量化空气污染物的浓度。例如，德克萨斯州环境质量委员会（TCEQ）在德克萨斯州的多个生产区域安装了自动气相色谱（auto-GC）系统，连续测量大约40种烃类物质的每小时平均浓度。(14) 在科罗拉多州，研究团队在丹佛Julesburg生产区域附近建立了连续运行的烃类和其他空气污染物监测站点。(15) 加利福尼亚州也将很快要求在油气站点附近进行连续的空气污染物测量。(16) 所有这些区域监测站都在生成或即将生成长期观测数据。在包括Eagle Ford Shale、Permian和Denver-Julesburg油气区域在内的多个地区，也部署了短期测量。在这些研究中，从固定和移动平台上测量了包括烃类、氮氧化物（NOx）和臭氧（O3）在内的空气污染物浓度，持续时间长达数月。(17) 虽然空气质量测量可以表征特定时间和地点的大气组成，但它们并不能直接提供有关空气污染物来源的信息。扩散模型用于确定影响环境测量的空气污染物的来源，或预测特定来源将如何影响空气质量。这些模型在许可和合规应用中得到广泛使用，并用于预测人类健康研究中的空气污染暴露情况。(18?20) 最近，扩散建模还被用来评估大气甲烷测量值与报告的排放清单之间的差异，以更好地了解油气供应链中甲烷排放的空间和时间分布。(21?23) 众所周知，这些模型由于排放和气象输入以及模型公式和参数化中的假设而存在不确定性。(24,25) 存在许多建模平台，包括简单的筛选模型（例如SCREEN3）、监管级别的通用模型（例如AERMOD、CALPUFF）以及高度专业化的研究级模型（例如R-LINE），用户需要决定哪种模型最适合他们的特定应用。(26?28) 模型通常会经过多步骤评估过程，以确定其在特定应用中的适用性。(29,30) 尽管具体方法有所不同，但这些技术大致分为三类：操作分析，使用统计和图形方法探索观测浓度与预测浓度之间的差异（例如偏差、方差、误差）和相关性（例如线性、非线性）；机制分析，评估模型再现与所模拟物理过程一致的结果的能力；以及概率分析，评估模型预测的不确定性。(29,31) 大多数模型性能研究将模型预测与研究级现场实验进行比较，这些实验使用测量网络在空间中的多个点采样由单个或少数明确定义的排放源产生的环境浓度。(29,32) 这减少了与排放清单相关的不确定性，并允许在空间和时间上将模型预测与观测结果进行对比。实际上，在油气生产区域，通常无法为每个排放源提供多个观测位置。此外，密集的排放源会导致羽流重叠，使性能评估变得复杂。

本研究评估了扩散模型在油气生产区域预测空气污染物浓度的操作性能，这些区域具有密集的排放源和稀疏的测量网络。基于文献和监管指南的模型性能分析框架应用于四种广泛使用的扩散模型（AERMOD、单方程高斯公式以及两个版本的CALPUFF），这些模型负责预测Eagle Ford Shale油气区域一个区域空气质量监测站的环境烃类浓度。模型性能针对多种应用目标进行了评估，包括长期暴露分析和非常规排放识别。还提出了一种选择最佳性能模型的通用方法。

**方法**
**研究领域**
Eagle Ford Shale是德克萨斯州中南部一个高产的油气层（图1）。它从美墨边境延伸约400英里，穿过26个德克萨斯县，最终在休斯顿西北部结束，平均宽度约为100公里。(33) 该生产区域大致分为北部以产油为主的部分和南部以产气为主的部分。(33) 在2009年之前，Eagle Ford Shale的开发程度很低。那一年1月，该地区的石油产量为每天340桶（bbl/day），天然气产量为每天580万标准立方英尺（MMcf/day）。(34) 到2023年，Eagle Ford Shale的石油和天然气产量分别增加到约980,000 bbl/day和约5,500 MMcf/day，占当年美国石油产量的7.6%和天然气产量的4.4%。(1,35,36) 该地区的快速和大规模开发引发了人们对空气质量的担忧，促使德克萨斯州环境质量委员会（TCEQ）在该地区建立了专门的监测活动，并推动了多项空气质量研究。(7,37?39)

**图1**
图1. 德克萨斯州覆盖Eagle Ford Shale地层的县。底图由Esri提供。

**烃类浓度数据**
环境烃类浓度由德克萨斯州环境质量委员会（TCEQ）在德克萨斯州Karnes City操作的自动气相色谱（auto-GC）系统测量。Karnes City位于Eagle Ford Shale油气区域的中心位置（图1）。auto-GC连续运行，采样周期为1小时。样本在地面以上约3米处收集。简而言之，在每小时的最初40分钟内，环境空气不断被吸入吸附剂中，从而捕获烃类。采样期结束后，通过快速加热吸附剂释放烃类，然后在气相色谱仪中进行分析。该方法可以量化大约40种不同的烃类物质。这些数据在TCEQ网站上公开可用。(41) 本研究的重点是乙烷，因为油气供应链是Eagle Ford油气生产区域乙烷排放的主要来源；因为该地区测量的乙烷浓度具有较高的信噪比；并且在考虑的距离范围内，乙烷相对不活泼。本研究中使用的auto-GC的观测数据使用了德克萨斯州Gregory的auto-GC的环境测量数据进行了背景校正（图S1）。更多详细信息见支持信息（SI）。

**浓度预测**
使用Tracking Community Exposures and Releases（TRACER）框架在Karnes City的auto-GC预测了每小时平均的环境烃类浓度，该框架是一种结合排放和扩散建模的方法，用于估计社区对油气操作的空气污染暴露。(42) TRACER框架利用更新版的Methane Emissions Estimation Tool（MEET）提供的空间和时间分辨的排放估计值，该工具是一个带有离散事件模拟器的化学过程模型，来预测和汇总油气操作的排放。(43) 战略性汇总排放简化了扩散建模，降低了在具有许多潜在排放源的大生产区域进行高空间和时间分辨率暴露分析的计算成本。

**建模领域和源表示**
在以auto-GC站点为中心的212公里×208公里域内，对排放和扩散进行了建模。该域包括三个嵌套区域：一个外部区域，划分为4公里×4公里的网格单元；一个中间矩形区域，尺寸为48公里×44公里，划分为1.333公里的网格单元；以及一个内部区域，尺寸为32公里×32公里。(44) 使用IHS Markit的井位和生产数据，在这三个子域中识别了超过20,000个单独的油气井站点。(45) 使用过程建模（稍后描述）在每个站点模拟了排放。(43) 对如此多的来源进行扩散模拟非常耗费资源，因此根据它们与auto-GC的距离，在不同的空间尺度上汇总了多个站点的排放。如果最接近站点的源在空间上得到了解析（即，被归因于它们实际发生的位置），则这种汇总方案不会影响扩散模型在auto-GC站点预测的环境浓度。在外部网格化区域，排放被汇总到每个网格单元内井点的空间质心。在内部区域，排放被汇总到使用Google Earth影像识别的集中液体处理设施的储罐组。由于该区域的井点现场设备有限，且大部分生产段的排放与液体处理设备或处理后的气体处理设备相关，因此假设内部区域的排放在空间上是解析的。表1总结了每个区域的设施数量和汇总点数量。模拟中还包括了70个中游设施，包括39个集输压缩站和31个天然气处理厂。这些设施是使用Google Earth影像和美国温室气体报告计划（GHGRP）及美国能源信息管理局（EIA）的数据识别的。(46,47) 中游设施的排放没有进行空间汇总。有关建模领域和排放源表示的更多详细信息，请参见Graves等人（2025）的研究。(44)

**表1. 各建模区域的设施和汇总点数量**
| 域域 | 单个井点数量 | 井点汇总点数量 | 中游站点数量 | 内部区域（32公里×32公里） | 318 | 83 | 327 | 45 |
| 中间区域（48公里×44公里） | 178 | 231 | 92 | | | |
| 外部区域（212公里×208公里） | 15,520 | 97 | 423 | | | |
| 总计 | 20,490 | 1620 | a | | | |

**排放估计**
对油气行业的上游和主要中游来源的常规排放（即与过程中断或设备故障无关的排放）进行了建模。使用Methane Emission Estimation Tool（MEET）单独估计了每个上游（井点）的排放。(43) MEET使用用户可配置的活动和排放因子以及过程建模来模拟各种来源类别的甲烷和其他烃类排放。排放是从气动控制器、化学注入泵、储罐（水和冷凝液）、液体卸载、完井和泄漏等来源模拟的。根据与生产分离器相关的四种过程流之一的组成，为每个来源类别指定了排放类型：(1) 井流，(2) 分离器上方（生产气体），(3) 分离器出口到冷凝液储罐，以及(4) 分离器出口到水储罐。(43,44) 使用Mitchell等人（2015）和Zimmerle等人（2020）提供的吞吐量缩放的甲烷排放因子，在设施级别估计了集输和处理设施的排放率。(48,49) 根据输送到设施的井产生的气体流的组成，按设施估算了集输和处理设施的排放组成。更多详细信息见Graves等人（2025）的研究。(44)

**扩散建模**
使用四种常用的扩散模型进行了扩散建模：AERMOD、单方程高斯实现以及两种使用不同方法估计水平和垂直扩散率的CALPUFF公式。还有其他多种模型可供选择，包括改进的单方程高斯公式，但所选模型代表了具有显著历史应用范围的模型复杂性和公式类型。这些模型都有不同的数据输入要求和计算需求——这些因素在选择模型时通常会被考虑。例如，AERMOD是一种烟羽扩散模型，也是美国环保署（EPA）推荐的用于短距离应用（≤50公里）的扩散模型，它旨在在准确性、计算需求和易用性之间取得平衡。CALPUFF是一种烟团扩散模型，旨在解决烟羽模型的局限性，但这种复杂性需要额外的输入和计算资源。关于这些模型之间差异的更多信息在补充信息（SI）中提供。

CALPUFF是一种烟团模型，它使用离散化的“烟团”在空间和时间上变化的风场中模拟扩散。扩散在所有方向上根据特定方向的概率密度函数进行建模，这些函数可能是高斯的，也可能不是高斯的，具体取决于模型配置。浓度预测代表某个时间步长的平均浓度。在这项分析中使用了两种CALPUFF公式。这两种公式使用相同的模型输入，但在估计水平和横向扩散参数（σy和σz）的方法上有所不同。第一种方法（以下简称基于稳定性的方法）使用Pasquill-Gifford（PG）稳定性分类。第二种方法（以下简称基于相似性的方法）使用相似性理论。除了这些差异外，这些模型的配置是相同的。简而言之，扩散建模是使用CALPUFF版本7.2进行的。使用CALMET版本6.5生成了具有10个垂直层和4公里空间分辨率的每小时网格化气象输入数据。来自国家气象局（National Weather Service）站点（综合地面数据库；自动地面观测系统）的观测数据以及由德克萨斯州环境质量委员会（TCEQ）运营的连续环境监测站（CAMS）的现场测量数据被作为基于地面的气象输入数据纳入CALMET。来自高分辨率快速更新（HRRR）模型单个网格单元的每小时垂直剖面的高空输入数据也被纳入。由于最近的气象探空站距离测量地点超过100公里，因此没有使用观测到的高空数据。土地利用和1度地形数据分别来自美国地质调查局（USGS）的国家土地覆盖数据库（NLCD）和美国地质调查局的国家高程数据集（NED）。模拟是在大约3个月的时间范围内（2023年3月3日至2023年5月25日）以1小时的时间分辨率进行的。浓度预测是在Auto-GC位置地面以上3米处进行的，以与观测采样高度和位置相对应。更多详细信息在补充信息中提供。

AERMOD是一种烟羽扩散模型，它通过假设在给定时间步长内发展出一个明确的稳态浓度分布来模拟扩散，该分布代表了该时间步长内发生的随机瞬时烟羽的组合。因此，浓度预测代表了一个平均分布。AERMOD使用相似性理论来估计扩散参数。烟羽模型通常计算要求较低，因为它们不需要在时间和空间上追踪烟团。然而，当条件不能很好地被稳态假设近似时（例如，当风速平静或变化很大时），它们的预测结果可能会与观测值有很大偏差。扩散建模是使用AERMOD版本22112进行的。AERMOD的气象输入数据是使用AERMET版本22112准备的。AERMOD建模套件准备了在整个建模域内假设恒定的风、温度和湍流剖面。它只需要一个地面和高空气象测量的来源作为观测输入，但可以容纳多个数据来源来补充缺失或不精确的地面测量数据（例如，风速平静的情况）。实际上，如果结合了多个地面数据来源，通常会确定一个“主要”站点，并提供一些补充的“次要”站点。使用TCEQ auto-GC站点的每小时风速、方向和温度测量数据作为主要地面数据集。来自最近ISD站点（Pleasanton Regional Airport）的每小时测量数据被作为次要数据来源，以补充现场测量数据中的缺失数据和风速平静时段。来自高分辨率快速更新（HRRR）模型单个网格单元的每小时垂直剖面的高空输入数据也被纳入。由于最近的气象探空站距离测量地点超过100公里，因此没有使用观测到的高空数据。土地利用和1度地形数据分别来自美国地质调查局（USGS）的国家土地覆盖数据库（NLCD）和美国地质调查局的国家高程数据集（NED）。模拟是在大约3个月的时间范围内（2023年3月3日至2023年5月25日）以1小时的时间分辨率进行的。浓度预测是在Auto-GC位置地面以上3米处进行的，以与观测采样高度和位置相对应。更多详细信息在补充信息中提供。

单方程高斯扩散建模是使用单方程高斯实现进行的，该实现考虑了烟羽反射（公式1）：
$$
C = \frac{Q^2 \pi u \sigma_y \sigma_z \exp\left(-\frac{1}{2} y^2 \sigma_y^2\right) \left[ \exp\left(-\frac{1}{2} (z - h)^2 \sigma_z^2\right) + \exp\left(-\frac{1}{2} (z + h)^2 \sigma_z^2\right)} {
}
$$
其中C是浓度，Q是源排放率，u是有效源高度处的风速，σy和σz分别是水平和垂直扩散参数，y是从烟羽中心线开始的横向距离，z是从地面开始的垂直距离，h是有效源高度。单方程高斯公式使用与AERMOD类似但更简单的方法来预测扩散。与AERMOD一样，单方程高斯公式假设气象和边界层参数的剖面在空间上是恒定的。因此，不能使用网格化输入，所以从最接近虚拟接收器的CALMET网格单元中提取气象变量作为所有时间步长的输入。扩散参数是使用基于Pasquill-Gifford稳定性分类的工业源复杂（ISC3）参数化（表S1和S2）为农村地形估计的。

蒙特卡洛分析
单个MEET模拟是确定性的。虽然每次运行都能基于化学过程建模提供代表性的油和气排放估计，但一些间歇性排放事件（如液体卸载）的确切时间、位置和规模是未知的。为了解决这些不确定性，生成了10个独特的蒙特卡洛排放时间序列，其中间歇性排放事件的位置和行为（例如，液体卸载的开始时间和持续时间）以及泄漏事件的位置和时间被随机化。每个时间序列都与单独的扩散建模模拟相结合，以生成每小时的预测碳氢化合物浓度分布。分析使用了10个浓度时间序列在每个时间点的中位数浓度。由于每次排放和扩散建模模拟都需要大量的计算资源，因此使用了10个蒙特卡洛序列。

性能分析
性能分析包括设置评估目标和指标（29,31,58,59），计算统计性能指标（29,31,32,59,60），以及探索模型性能对参数（如风速和一天中的时间）的依赖性。

评估目标
在这项工作中，评估标准是根据分析的目标选择的，即检测大型间歇性排放事件和量化急性及时间平均暴露量。评估标准包括模型在以下方面的表现：（1）再现环境碳氢化合物浓度的日变化模式；（2）预测观测到的最高增强值；（3）预测与暴露分析或年度排放清单相关的长期平均增强值。

统计性能指标
统计性能分析采用了美国环保署（EPA）开发的筛选程序（59）。该程序基于最高观测值和预测值的平均值（FBC?）和标准差（FBσ）的分数偏差度量（公式2和3），目的是表征模型再现“最坏情况”观测值的程度。在典型的分析中，使用前10-25个预测和观测到的增强值来计算FBσ和FBC?。通过立即识别那些在任何条件下都不能充分预测最高观测增强值的幅度（例如，平均值）和范围（例如，标准差）的模型，可以在不进行更详细分析的情况下将其排除在外。

$$
F_{BC,\bar{}} = \frac{2 \cdot \overline{C}_\text{obs} - \overline{C}_\text{pre}}{C_\text{obs} + C_\text{pre}}
$$
其中$F_{BC,\bar{}}$是前10-25个观测和预测增强值之间的分数偏差；$\overline{C}_\text{obs}$是前10-25个观测增强值的平均值；$\overline{C}_\text{pre}$是前10-25个预测增强值的平均值。前10-25个增强值在时间上不配对。

$$
F_{B,\sigma} = \frac{2 \cdot \sigma_{\text{obs}} - \sigma_{\text{pre}}{\sigma_{\text{obs} + \sigma_{\text{pre}}}
$$
其中$F_{B,\sigma}$是前10-25个观测和预测增强值之间的标准差分数偏差；$\sigma_{\text{obs}}$是前10-25个观测增强值的标准差；$\sigma_{\text{pre}}$是前10-25个预测增强值的标准差。前10-25个预测和观测增强值在时间上不配对。

在EPA的协议中，操作性能的最低标准定义为模型的$|FB\sigma|$和$|F_{BC,\bar{}}$均不超过0.67（即，预测值超过或低于实际值的倍数不超过2倍）（59）。然而，为了评估每个指标的方向性，$F_{BC,\bar{}}$和$FB\sigma$通常被绘制在散点图上作为坐标（$F_{BC,\bar{}, FB\sigma}$），其中每对坐标代表使用单个模型的预测计算出的偏差指标（图S3）。如果模型的坐标（$F_{BC,\bar{}, FB\sigma}$都在原点（0,0）的±0.67范围内，则认为模型通过了筛选分析。通常会在图上叠加一个尺寸为$F_{BC,\bar{}} = ± 0.67$和$FB\sigma = ± 0.67$的边界框作为视觉辅助。（图S3）。

本工作中使用的第二组统计性能分析基于之前现场研究中的方法（29,31），涉及计算观测值和模型预测之间的差异和相关性的统计度量。这些度量是针对12周建模期间的所有小时计算的，并分别针对白天（上午9点至下午5点）和夜间（下午6点至上午8点）计算。表2总结了本分析中使用的性能指标。更多详细信息在补充信息中提供。

表2. 用于扩散模型性能分析的统计指标
| 性能指标 | 缩写 | 描述 | 计算方法 |
|---------|------|--------|---------|
| FAC2 | | 自解释 | 满足0.5的测量比例 | |
| NMSE | | 非标准化绝对误差 | | |
| NAE | | 类似于标准化均方误差，衡量观测值和预测值之间残差的分布，以指示模型平均预测测试数据范围的准确性 | |
| FB | | 分数偏差 | 表示模型平均倾向于高估或低估预测值的程度。正值表示低估，负值表示高估 | |
| MGL | | 几何平均偏差 | | 使用几何平均值而不是算术平均值。对于跨越多个数量级的数据集特别有用，尤其是当预测值和观测值的比例显示较大范围时（例如，1 · 10^-2至1 · 10^2） | |
| RMSE | | 均方根误差 | | 衡量预测值和观测值之间的平均残差 |
| r | | 相关系数 | 描述两个变量之间线性关系的强度和方向 |
| ρ | | 斯皮尔曼等级相关系数 | 描述两个变量之间单调关系的强度和方向 |

结果和讨论
图2显示了由CALPUFF（稳定性分类和相似性理论）、AERMOD和单方程高斯实现（在图中称为SEGAUSS）在集中接收点预测的每小时乙烷浓度的时间序列。显示了十周建模和分析周期中的六周。乙烷是主要评估的物种，因为它是一个油和气生产活动的标志物，并且与其他乙烷排放源相比，在比较观测值时可以忽略不计。观测数据被叠加在每个时间序列上。每个模型通常都能预测乙烷浓度增强的时间，并再现昼夜浓度变化模式（图S4），但浓度增强的幅度并不一致。AERMOD通常预测的浓度最低（图S5），在风速较慢（≤0.5米/秒）的情况下，它甚至预测浓度为零（图S6）。由于羽流模型假设平流速度总是远大于沿羽流方向的扩散速度，因此在这种假设不成立的情况下，其预测结果通常具有不确定性。AERMOD通过跳过风速低于特定阈值（此处为0.5米/秒）的时间步的扩散计算来避免在这些条件下的不现实预测。而单方程高斯模型则没有采取类似的预防措施，导致在低风速条件下其预测结果显著高于其他模型（图S7）。

图2显示了由CALPUFF（稳定性分类）、AERMOD和单方程高斯（SEGAUSS）模型预测的集中接收点的乙烷浓度时间序列。图中展示了十周建模和分析周期中的六周数据。

羽流模型没有假设平流和扩散的相对速率，因此在风速较慢的情况下，其预测结果通常不那么极端。在这项分析中，CALPUFF模型在风速较慢时能够更好地预测浓度增强的幅度（图2）。然而，所有模型在低风速下的扩散计算都最为不确定。因此，本工作中的性能指标是在考虑有无风速较慢情况的情况下进行评估的。风速较慢的小时数是根据每个模型接收到的气象数据（由CALMET或AERMOD提供）来确定的。更多详细信息见补充信息（SI）。气象和排放的季节性模式可能会影响实际测量到的浓度。图S13和S14展示了建模周期在测量浓度和气象方面的代表性。补充信息中提供了更多细节。

尽管许多观察到的浓度增强事件都被模型预测到了，但仍有少数未被预测到。其中最显著的是三个发生在白天的事件（上午9点至下午5点），这些事件占了白天浓度增强事件的前1%。这些未解释的增强事件很可能是由于排放模型未考虑到的非常规排放事件所致。如果将这些事件纳入分析，模型再现最高白天浓度增强的能力将会明显下降。EPA模型筛选程序的结果（图3a-e）证实了这一点。

图3显示了AERMOD、两种CALPUFF实现方式以及单方程高斯（SEGAUSS）模型预测的25个最高浓度增强事件与实际观测值之间的偏差比例。偏差超出±0.67范围的模式被认为是表现不佳的；图中的a-c面板显示了包含所有事件时的筛选结果；d-f面板显示了移除了三个大型未解释的白天排放事件观测值后的筛选结果。

图3的a-c面板展示了使用建模周期内所有小时（包括风速较慢的小时）的筛选结果。AERMOD和两种CALPUFF实现方式在夜间和“全天”类别中达到了可接受的性能指标（即偏差在±0.67范围内），但在白天未能达到性能阈值。单方程高斯模型在任何时间都未达到性能阈值。各模型在一天中不同时间段的偏差分布总体一致：AERMOD的偏差最大，单方程高斯模型的偏差最小，两种CALPUFF实现方式的偏差介于两者之间。图3的d-f面板显示了移除三个未解释的白天增强事件后的筛选结果。虽然夜间和“全天”类别的结果基本不变，但在白天类别中所有模型的性能都更接近理想状态。通过使用基于稳定性的方法估计扩散系数，CALPUFF在一天中的任何时间都达到了性能阈值。其他模型的性能在不同时间段内表现各异。移除风速≤0.5米/秒的小时后，模型的性能进一步提高，尤其是单方程高斯模型（图S9a-c）。此外，如果忽略风速低于1米/秒的小时（“接近静止”条件；图S9d-f），四种模型在夜间和“全天”类别中都通过了筛选分析。然而，CALPUFF（稳定性）仍然是唯一一个在三个时间段内始终通过筛选分析的模型。

表3显示了分析周期内每个模型计算的主要统计指标。由于每天自动GC系统都会进行2-3小时的质量保证程序，在此期间不收集环境测量数据，因此省略了一些小时。在“全天”情况下，AERMOD模拟中的风速较慢小时未被剔除。统计计算也忽略了AERMET或CALMET识别出的所有风速≤0.5米/秒的静止条件。三个未解释的白天增强事件在两种情况下都未被剔除。各模型之间的统计结果存在显著差异，但一些趋势较为明显：CALPUFF模型的误差和相关性指标通常更好；AERMOD是唯一一个报告正偏差（例如低估）的模型；AERMOD和单方程高斯模型在大多数指标上的表现始终最差。移除静止小时后，所有模型的偏差比例都有所改善，这表明这些小时被各模型一致且显著地高估或低估了。对于AERMOD和单方程高斯模型，移除静止小时后计算出的指标通常对这种影响更为敏感，可能是因为这些小时与极端高或零浓度预测相关。移除静止小时后，大多数统计指标都有所改善。相比之下，当移除静止小时时，CALPUFF模型的相关性指标反而恶化。这种行为在相关系数（r）上比等级排序相关性（ρ）更为明显，表明CALPUFF在预测最高浓度增强的时间和绝对浓度方面可能比预测中等强度增强更为准确。图S10证实了两种CALPUFF实现方式在预测某些最大浓度增强的时间和幅度方面表现合理，但在时间匹配的情况下，中等强度增强的方差较大。

表3显示了为每个扩散模型计算的主要运行统计指标。由于每天自动GC系统都会进行2-3小时的质量保证程序，因此省略了一些小时。在“全天”情况下，AERMOD模拟中的静止小时未被剔除。统计计算还忽略了AERMET或CALMET识别出的所有风速≤0.5米/秒的静止条件。三个未解释的白天增强事件在两种情况下都未被剔除。尽管模型之间的统计结果存在差异，但一些趋势较为明显：CALPUFF模型的误差和相关性指标通常更好；AERMOD是唯一一个报告正偏差的模型；AERMOD和单方程高斯模型在大多数指标上的表现始终最差。移除静止小时后，所有模型的偏差比例都有所改善。此外，如果忽略风速低于1米/秒的小时（“接近静止”条件；图S9d-f），四种模型在夜间和“全天”类别中都通过了筛选分析。然而，CALPUFF（稳定性）仍然是唯一一个在三个时间段内始终通过筛选分析的模型。

表3中的模型按其整体性能进行了名义排序（表现最好的位于顶部），该方法旨在最小化计算统计值与其理想值之间的差异。这种方法识别出在仅在一个地点有测量数据时能够产生最平衡预测的模型。实际上，性能指标和分析方法可能需要根据具体用途进行选择。例如，监管应用可能更倾向于使用保守的模型，尤其是在环境条件有利于环境浓度增强的情况下（例如，大气稳定）。在这种情况下，偏差比例（FB）的权重可能远高于FAC2。或者，急性暴露分析可能更倾向于使用FAC2、NAE和相关系数更理想的模型，以更准确地估计时间暴露模式。补充信息中提供了更多细节。根据名义排名，使用基于稳定性的方法计算扩散系数的CALPUFF被认为是这项分析中“全天”类别下1小时时间分辨率下表现最佳的模型。表S5和S6显示，白天和夜间类别的趋势相似。补充信息中还包含了其他统计指标。

CALPUFF是一个非稳态扩散模型，这可能解释了其与AERMOD和单方程高斯模型相比表现更好的原因，后两者都是稳态模型。建模域相对较大，且分析中考虑的传输期间气象条件并非恒定，这与羽流模型的假设不同。CALPUFF附带的气象预处理器CALMET能够为预测扩散准备一个空间变化的气象场，从而可能提高浓度预测的准确性。虽然统计指标有助于比较模型性能，但模型输入的不确定性也会影响其结果。表S8显示了在假设整个区域的排放量增加30%且排除静止小时的情况下，表3中的主要运行统计指标。补充信息中提供了关于模型不确定性的进一步讨论。

统计指标并不能详细解释模型为何会有这样的表现。残差图通过将预测浓度与观测浓度（按时间配对）的差异与一个自变量进行对比，可以提示可能的机制行为或输入不确定性，从而解释模型在特定条件下的表现。图4显示了按时间分组的残差图。AERMOD、CALPUFF（稳定性）和单方程高斯模型通常能准确预测夜间高浓度时段，而CALPUFF（相似性）则倾向于显著高估这些时段。然而，所有模型在白天（上午9点至下午5点）通常都低估了观测值。值得注意的是，所有模型在日出后（上午8点至中午12点）的时段低估观测值最为显著。这可能表明了一个共同的机制特征，导致模型高估了日出后的对流混合强度。将CALMET和AERMET预测的边界层高度（作为大气稳定性的代理）与高分辨率快速更新（HRRR）模型的预测进行比较（图S15），发现两种方法在同一时段（上午8点至中午12点）的差异最为显著。这表明气象输入和预处理器的不确定性可能是造成这种行为的原因之一。然而，尽管使用相同的排放量和气象输入，不同CALPUFF实现方式在白天的低估程度存在显著差异，这表明扩散参数化方案（例如，相似性或稳定性方法）也起到了作用。总体而言，基于相似性的模型（AERMOD和CALPUFF（相似性）在中等残差上的过度预测和低估更为极端。

图4显示了以一天中不同时间为自变量的每个模型的残差图。

在这项分析中，MEET预测的区域排放也表现出昼夜模式（图S18）。排放的昼夜模式主要由手动液体卸载事件驱动（图S18）。这些事件需要操作员监督，并且发生在工作时间，导致白天的排放量高于夜间。虽然MEET将卸载事件模拟为具有基于经验分布的排放特征（例如，持续时间、幅度、频率）的离散事件，但这些事件的确切时间、位置和幅度在现场是未知的。因此，每个模型中的某些白天低估可能是由于MEET未预测到的附近卸载事件，或是由于对整个区域卸载事件幅度的系统性低估所致。然而，由于卸载事件的离散性和间歇性，如果仅考虑卸载事件本身，这种趋势不太可能如此一致且在某些情况下具有如此强的方向性（例如，AERMOD在上午8点至中午12点的中位数预测值几乎比观测值低一个数量级）。

通过对四种常用扩散模型（具有明显不同模型公式）的分析，研究了污染物在简单地形中从数千个油气源传输数十公里的过程。这些模型得出的浓度剖面在定性上相似，但在定量上有所不同。这些差异对模型性能的影响因模型类型、建模场景和建模目标的不同而有所差异，这凸显了在评估模型预测与观测结果时需要采用适当的性能分析标准。以本研究中使用的建模配置为例，如果扩散建模的目的是识别并描述高浓度事件的来源，而不需要对排放量进行定量评估，那么所有模型都预测到大部分高浓度事件发生在平静期之后。然而，许多观测到的最大浓度增强现象实际上发生在平静期间，而CALPUFF模型在这些时段的预测更为合理。如果扩散建模的目的是预测长期平均浓度变化（例如每日、每夜或每年），那么在该站点使用该排放清单的情况下，CALPUFF（稳定性公式）模型的表现优于其他模型。尽管通用的分析框架可以为选择高性能扩散模型提供依据，但用户应留意模型构建方式及模型输入参数（如排放量和气象数据）对预测浓度的影响。此外，在油气生产区或其他测量网络较为稀疏的地区，模型性能分析将依赖于在单一位置或少数几个位置上将预测结果与观测数据进行对比。用户应仔细考虑可用的数据输入和计算资源，以确保在模型复杂性和准确性之间取得平衡。尽管如此，在模型输入条件相似的情况下，操作分析仍能提供有用的指标来评估扩散模型的性能，并可通过机制性或概率性分析进一步补充这些评估结果。

热点排行