用于冬季青藏高原动态对流层顶压力反演的注意增强型ResUNet：结合FY-4A多通道数据与地形约束吴军杰，白亮，卢明瑞，李晓静，罗婉茵，张廷龙

《Remote Sensing》：Attention-Enhanced ResUNet for Dynamic Tropopause Pressure Retrieval over the Winter Tibetan Plateau: Integrating FY-4A Multi-Channel Data with Topographic Constraints Junjie Wu, Liang Bai, Mingrui Lu, Xiaojing Li, Wanyin Luo and Tinglong Zhang

【字体：大中小】 时间：2026年04月28日 来源：Remote Sensing 4.1

编辑推荐：

　　**亮点** **主要发现是什么？** 基于FY-4A多通道卫星观测数据，开发了一种融合注意力机制和数字高程模型（DEM）地形数据的深度学习模型（Att-ResUNetDEM），该模型能够实现对冬季青藏高原动态对流层顶压力的区域化反演。与随机森林基线方法相比，模型的平均绝对

　　**亮点**

**主要发现是什么？**
基于FY-4A多通道卫星观测数据，开发了一种融合注意力机制和数字高程模型（DEM）地形数据的深度学习模型（Att-ResUNetDEM），该模型能够实现对冬季青藏高原动态对流层顶压力的区域化反演。与随机森林基线方法相比，模型的平均绝对误差（MAE）和均方根误差（RMSE）分别降低了13.2%和9.2%，相关性系数提升至0.76。引入DEM地形约束后，模型在主要航空走廊（北纬30°，东经90–104°）上对流层顶压力梯度的反演精度得到提高，相关性系数从0.80提高到0.87，并有效抑制了强梯度区域的误差放大，显著增强了空间梯度的一致性。

**主要发现的意义是什么？**
这种区域化、季节性特定的建模策略结合嵌入式地形信息，为复杂地形及多环流影响区域的高分辨率动态对流层顶监测提供了新的技术途径，支持对青藏高原航空路线沿线晴空湍流风险的实时评估和早期预警。研究表明，深度学习框架在捕捉复杂中纬度动力环境下的空间连贯对流层顶梯度演变方面具有优势，为近实时地球静止卫星对流层顶反演和区域化建模奠定了方法论基础。

**摘要**
动态对流层顶压力（DTLP）是表征对流层上层分层和大气动力结构的关键界面。其空间形态和梯度变化直接影响急流分布以及晴空湍流（CAT）的强度和位置。在青藏高原，复杂的地形和显著的动力变化导致冬季对流层顶高度降低且水平梯度增强。飞机巡航高度经常接近或穿过该区域的对流层顶，因此准确细致地描述DTLP结构对航空安全至关重要。本研究通过集成地形约束和注意力机制，开发了一种基于深度学习的DTLP反演模型（Att-ResUNetDEM）。使用MERRA-2再分析数据作为监督标签，该模型在残差编码器-解码器框架中引入了挤压-激发（SE）注意力机制，并结合数字高程模型（DEM）作为额外输入通道，以明确考虑地形效应。与随机森林（RF）模型相比，Att-ResUNetDEM的MAE和RMSE分别降低了13.20%和9.19%，相关性系数提升至0.76。在青藏高原的主要航空走廊上，Att-ResUNetDEM模型的相关性系数达到0.87，梯度离散度显著减小。一个典型的晴空湍流案例进一步证实了该模型捕捉整体DTLP形态和梯度增强区域的能力。总体而言，通过结合区域化建模策略和地形约束，本研究系统性地提高了复杂地形上DTLP反演的准确性和梯度一致性，为高分辨率对流层顶监测和航空运营支持提供了新的技术途径。

**1. 引言**
对流层顶作为分隔湿润、湍流混合的对流层与干燥、稳定分层的平流层的物理边界[1,2]，是能量和质量在对流层与平流层之间交换的重要“通道”[3,4,5]。其热力和动力结构的长期变化被广泛视为气候变化的重要指标[6,7,8,9,10]。在天气尺度上，异常的对流层顶结构（如变陡或折叠）会促进平流层空气侵入对流层[11]，加速气旋生成[12,13]，可能触发严重的中尺度天气过程（包括深度对流[14,15,16,17,18,19,20,21]），并成为重力波和行星波向上传播的重要源区[22,23]。从民用航空运营的角度看，商业航空交通主要集中在对流层顶附近[24,25]。对流层顶压力不仅是巡航高度规划和避让对流云的关键参考参数，其对流层顶的突然变化或折叠结构也是晴空湍流（CAT）的主要来源[26,27,28,29]。因此，国际民航组织（ICAO）要求在高級天气图中标明对流层顶高度。
基于对流层顶明显的热力学、动力学和化学不连续性，对其定义通常分为两类：热力学定义和动力学定义[30,31,32]。世界气象组织（WMO）于1957年提出的递减率对流层顶（LRT）是最广泛使用的热力学定义[33]，它将对流层顶定义为递减率降至2°C km?1或更低的最低层，前提是上方2公里层内的平均递减率不超过2°C km?1。LRT可以通过无线电探空观测[34,35,36,37]、全球导航卫星系统（GNSS-RO）测量[38,39,40]或再分析数据集[41]获得。然而，递减率并非守恒量，其识别精度受季节变化、纬度和复杂大气过程（如对流层顶折叠和罗斯贝波破碎事件[42,43]的影响。在亚热带过渡区，一个温度剖面中往往可以识别出多个次级LRT，这使得确定主要LRT具有挑战性[45]。此外，LRT在表示平流层-对流层交换和动力异常方面的能力有限，也无法直接与高层锋面系统和急流活动联系起来。为克服这些限制，Reed提出使用位涡（PV）表面来定义动态对流层顶[46]，这一方法已在中高纬度地区得到广泛应用，尤其是在强气旋活动区域[42,47]。动态对流层顶压力（DTLP）通常由|PV| = 2 PVU表面（1 PVU = 10?6 K kg?1 m2 s?1）定义[3,48,49]，尽管根据地理位置、季节和天气条件，这一阈值可能在1–5 PVU范围内进行调整[46,50,51,52,53,54,55]。由于热带地区的绝对涡度较弱，一些研究采用混合定义，在热带使用LRT，在温带使用DTLP[56,57]。与LRT相比，DTLP能更全面地反映大气的稳定性、密度和旋转特性。其结构变化与高层锋面区、急流和对流层顶折叠过程密切相关[58,59,60]，这些区域也是晴空湍流（CAT）发生的主要区域[27,61,62,63,64]。因此，高时空分辨率的DTLP产品对航空安全具有重大实用价值，这也是本研究中选择DTLP作为目标变量的根本动机。
青藏高原位于夏季季风、冬季季风和冬季西风的交汇处，是平流层-对流层交换的重要全球通道[65,66]，在东亚亚热带西风急流的变化中起到关键作用[67]。受复杂地形的热力和动力效应共同影响，该地区对流层顶频繁发生折叠，特别是在冬季和春季，显著增加了CAT的频率和强度[59]。因此，青藏高原被认为是全球晴空湍流发生的热点之一[68]。然而，目前的对流层顶高度获取方法主要依赖于无线电探空观测、航空测量和数值再分析产品[36,37,44,49,69]，这些方法在青藏高原的表现都有明显局限性。该地区的无线电探空站和飞行路线极为稀少，难以重建对流层顶的空间结构[70]。数值模型受空间分辨率和计算成本的限制，难以捕捉高时间频率和近实时尺度下对流层顶结构的快速演变。相比之下，具有高时空分辨率和广泛覆盖范围的地球静止气象卫星为对流层顶监测提供了有希望的途径。以往的研究利用地球静止卫星的水汽通道观测来识别对流层顶折叠并评估CAT风险，基于水汽梯度特征或位涡（PV）与对流层顶的动力联系[71,72,73,74,75]。在此基础上，Shou等人引入统计机器学习方法利用FY-4A多通道观测数据进行DTLP反演[76]。通过比较线性回归、K最近邻（KNN）、梯度提升决策树（GBDT）和随机森林（RF），他们发现RF具有最佳性能，并强调了卫星通道选择和纬度分布对反演精度的影响，特别是在中纬度地区误差较大[76]。尽管这些研究为基于卫星的DTLP反演奠定了基础，但其适用性在青藏高原冬季条件下仍有限。传统机器学习方法（如RF）将每个像素视为独立样本，忽略了空间自相关性[77]，难以捕捉DTLP场的多尺度空间结构和局部梯度特征。这种限制在青藏高原尤为突出，因为复杂的地形强烈调节了大气动力学。此外，全球统一的训练策略会将不同季节和纬度的样本混合，掩盖了高原冬季DTLP的独特结构特征，从而降低模型在该特定条件下的适用性。
基于编码器-解码器架构的深度学习框架通过层次化卷积操作自动提取多尺度空间特征，能够在统一框架内建模长距离空间依赖性和局部非线性关系，克服了这些限制。ResUNet结合了残差学习的梯度稳定优势和U-Net架构的多尺度特征融合能力[78]，在遥感图像分割和大气参数反演任务中表现出色[79,80,81]。引入注意力机制后，网络能够自适应地关注复杂多通道输入中最有信息量的特征。此外，青藏高原的复杂地形对局部大气动力学有强烈影响，其对DTLP空间分布的影响不可忽视。然而，现有反演研究中尚未明确考虑这一物理机制，如何有效地将地形信息整合到基于卫星的反演模型中仍是一个未解决的问题。

**2. 研究区域和数据**
本研究使用MERRA-2（现代时代回溯分析与应用研究第二版）再分析数据集中的动态对流层顶压力（DTLP）作为监督学习的目标变量。该数据集由美国国家航空航天局（NASA）的全球建模与同化办公室（GMAO）开发，并通过戈达德地球科学数据与信息服务中心（GES DISC）分发。MERRA-2利用先进的数据同化系统整合了多种卫星遥感数据、无线电探空观测和航空测量数据，生成物理一致且时空连续的大气状态场，广泛应用于气候研究、平流层-对流层交换和大气参数反演[82]。本研究采用MERRA-2提供的DTLP产品，采用|PV| = 2 PVU等值面（1 PVU = 10?6 K kg?1 m2 s?1）作为定义对流层顶的阈值，这一阈值在中高纬度地区广泛使用[3,46,47]。数据集的时间分辨率为1小时，空间分辨率为0.5° × 0.625°（纬度×经度），可在https://disc.gsfc.nasa.gov/datasets/M2T1NXSLV_5.12.4/summary（2025年1月15日访问）获取。在此研究中，MERRA-2的DTLP数据被用作深度学习模型的监督标签，从而建立了卫星辐射特征与DTLP之间的对应关系。
模型的主要输入变量包括来自地球静止卫星的辐射观测数据。选择FY-4A卫星上的先进地球静止辐射成像仪（AGRI）的9-14通道（表1）。AGRI覆盖0.45至13.8 μm的光谱波段，空间分辨率为4公里，时间分辨率为4.5分钟。通道9-10对应不同垂直灵敏度水平的水汽波段，用于表征对流层上部和中部的水分信息；通道11-14是红外相关波段，用于反射云顶亮温和高层热结构特征[83,84]。数据由国家卫星气象中心提供，可在https://www.nsmc.org.cn/nsmc/cn/home/index.html（2025年1月13日访问）获取。在这项研究中，这些通道的亮度温度数据被用作主要特征变量，并输入模型中以学习卫星辐射观测与DTLP之间的非线性关系。此外，为了增强模型表示地形效应的能力，还加入了数字高程模型（DEM）作为辅助输入特征。DEM数据集由国家环境信息中心（NCEI）提供，其空间分辨率为1弧分（大约1.86公里）[85]。

2.2. 研究区域
基于1995年至2024年的月平均MERRA-2再分析数据（图1），DTLP显示出明显的纬向梯度模式，北部值较高，南部值较低。最强的纬向梯度出现在中纬度地区，那里密集的等高线形成了明显的纬向带，表明对流层顶的坡度最陡峭，垂直结构变化最显著。进一步分析发现，DTLP等高线密集的区域与标准差较大的中心之间存在高度的空间一致性，这些中心主要分布在青藏高原及其周边地区。这种空间对应关系表明，大尺度地形在调节对流层顶的空间结构和变异性方面起着重要作用。强梯度和高变异性的共存意味着DTLP梯度较大的区域倾向于表现出更明显的年际和季节性波动，反映了対流层顶结构的不稳定性。

图1. 1995-2024年冬季（a）、春季（b）、夏季（c）和秋季（d）青藏高原及其周边地区的DTLP（等高线，hPa）及其标准差（阴影，hPa）。黑色实线表示青藏高原的地形轮廓，图（a）中的红色虚线矩形表示本研究中选定的研究区域。从季节角度来看，青藏高原上的DTLP及其变异性都显示出明显的季节性依赖性。冬季，高原的对流层顶梯度最强，标准差也最大。高值中心沿大约30°N方向带状分布，覆盖了大部分高原（图1a），表明冬季的对流层顶坡度最陡峭，结构变异性最活跃。春季和秋季，这些特征明显减弱，尽管高值区域仍主要局限于高原（图1b,d）。夏季，高值中心向北移动到高原的北部，而高原本身的变异性达到年度最小值（图1c）。

综合这些特征可以看出，青藏高原的冬季不仅对流层顶的空间梯度最强，变异性也最大。值得注意的是，变异性较强的区域与商业航空的典型巡航高度有相当大的重叠，这对飞行安全可能具有重要意义。因此，研究区域被定义为北纬26°-40°和东经70°-104°，冬季被选为系统获取青藏高原DTLP的主要时期。

3. 方法与实验设置
3.1. 实验模型
在本研究中，采用了ResUNet架构作为基准模型框架。通过逐步融入注意力机制和地形约束，开发了一系列用于冬季青藏高原DTLP反演的深度学习模型。另外还实现了一个随机森林（RF）模型作为基准，以系统量化各个组分的贡献。RF模型通过集成大量决策树来捕捉高维特征之间的非线性关系，并已广泛应用于从地球静止卫星观测中统计反演大气参数[76]。在本研究中，使用六个FY-4A红外亮度温度通道作为RF模型的输入特征。DTLP通过像素级回归策略进行反演，RF结果用于比较，以评估深度学习模型在空间建模能力方面相比传统统计方法的改进。ResUNet将残差学习引入经典的U-Net框架[78]，并在遥感图像语义分割、地表特征提取以及基于地球静止卫星数据的大气参数反演等任务中得到了广泛验证[79,80,81,86,87,88]。在本研究中，ResUNet被用作基准深度学习模型。六个FY-4A红外亮度温度通道作为输入，输入维度为（其中表示样本数量，表示空间网格）。构建了从卫星观测到DTLP的端到端映射（图2）。在编码阶段，使用了3 × 3卷积层和残差块，并采用渐进式下采样来扩大感受野并提取高级语义特征。在解码阶段，应用转置卷积逐渐恢复空间分辨率。编码器和解码器之间的跳跃连接使多尺度空间细节和语义信息能够融合。进一步引入了尺寸调整操作，以确保在不同尺度特征图拼接时的空间一致性。标准ResBlock的详细结构如图3所示。采用了全预激活设计，其中批量归一化、ReLU激活和3 × 3卷积依次应用两次，然后是一个身份 shortcuts 连接将输入添加到输出。当通道维度不匹配时，在shortcut路径中应用1 × 1卷积进行对齐[89]。这种结构使模型能够捕捉与DTLP相关的大尺度动态结构和局部变化。

图2. 改进的Att-ResUNetDEM架构示意图。不同颜色的模块代表编码和解码路径上的特征传播。浅蓝色块表示卷积单元（3 × 3卷积），绿色块表示转置卷积单元，粉色块表示残差块。S形虚线对应跳跃连接，深蓝色虚线框表示用于空间尺寸对齐的尺寸调整操作。方括号中的数字表示每个模块中包含的卷积层数量，括号中的数字表示输出特征通道的数量。

图3. 残差块和Squeeze-and-Excitation（SE）注意力模块的示意图。为了进一步提高模型对关键物理信号的敏感性，在ResBlock中引入了Squeeze-and-Excitation（SE）通道注意力机制，形成了Att-ResBlock和相应的Att-ResUNet模型。输入配置与基准ResUNet相同。SE模块首先应用全局平均池化来压缩空间信息，然后是两个全连接层，生成范围在（0, 1）内的逐通道权重。这些权重用于逐通道重新校准原始特征图（图3）。在Att-ResBlock中，SE模块插入在两个卷积层之后和shortcut添加之前，从而自适应地增强信息丰富的通道。这种设计允许网络关注与DTLP变异性密切相关的高层湿度和热结构信号，同时抑制不相关的背景特征。

为了明确纳入地形信息，将DEM数据作为额外的输入通道，并沿通道维度直接与六个卫星亮度温度通道连接（图2中的输入层），形成一个大小为的输入张量。第七个通道对应DEM场，该场被重新采样以匹配卫星数据的空间分辨率，从而得到最终的Att-ResUNetDEM模型。这种早期融合策略使得地形高程信息从第一个卷积层开始就参与特征提取过程，使网络能够明确学习地形强迫对DTLP空间分布的调节效应，而不是依赖对地形影响的隐式推断。

3.2. 实验设置
基于上述四种实验配置，按照逐步程序进行了一系列比较实验。首先，使用RF模型在相同的输入特征条件下反演DTLP。其次，引入ResUNet建立深度学习基准，以评估卷积框架相对于RF的整体性能提升。第三，结合SE通道注意力机制构建Att-ResNet模型，并评估其对增强关键特征表示的贡献。最后，引入DEM数据作为额外的输入通道，形成Att-ResUnetDEM模型，从而能够定量分析地形约束在表示DTLP空间分布方面的改进。这四个步骤构成了一个完整的渐进式消融链，在每个阶段只修改一个组件，确保各个贡献的可解释性。所有深度学习模型均使用Adam优化器进行训练，初始学习率为0.001。采用自适应学习率调度策略，当连续几个时代的验证损失未能下降时，学习率降低0.85倍，最低学习率为。批量大小设置为128。损失函数是自适应Huber损失，其中阈值参数根据当前平均绝对误差在每个训练时代动态更新，约束在[0.25, 2.0]范围内，从而在稳健性和对小错误的敏感性之间取得平衡。采用基于验证损失的提前终止策略，耐心为15个时代，并保留对应于最低验证MAE的模型权重以防止过拟合。

为了定量评估每个输入通道在Att-ResUnetDEM模型中的贡献，并评估结合DEM信息的有效性，采用了输入掩蔽方法[90]进行通道重要性分析。具体来说，分别用训练集计算出的相应平均值替换七个输入通道（TBB09–14和DEM）的值进行掩蔽，同时保持其余通道不变。掩蔽前后测试集MAE的变化（MAE）用作通道重要性的定量指标。较大的MAE表明相应通道对DTLP反演更为重要，而接近零或负的值表明独立贡献有限或潜在的信息冗余。通过比较不同亮度温度通道和DEM通道的MAE值，可以在统一框架内定量评估卫星观测和地形信息对DTLP反演准确性的相对贡献。

3.3. 评估指标
为了定量评估DTLP反演结果的准确性和稳定性，本研究采用了四个统计指标：平均绝对误差（MAE）、均方根误差（RMSE）、皮尔逊相关系数（R）和平均偏置误差（MBE），这些指标共同提供了对模型性能的全面评估。MAE表示误差的平均幅度，不区分符号，用于衡量模型的整体反演准确性和稳定性。RMSE对误差应用平方加权，因此对大偏差更敏感，突出了模型在极端或异常条件下的性能。MAE和RMSE的范围都是0到+∞，较小的值表示更高的反演准确性；然而，MAE主要反映典型误差幅度，而RMSE强调大误差的贡献，使这两个指标相辅相成。皮尔逊相关系数（R）量化了反演值和参考值之间的线性关系，范围为[?1, 1]，较大的绝对值表明模型捕捉DTLP的时间和空间变异性更强；正值（负值）对应于正（负）相关性。MBE用于描述反演结果相对于参考值的系统偏差，可以是正的或负的，分别表示总体高估或低估。与MAE不同，MBE保留了误差的符号，因此有助于诊断模型中的一致性方向偏差。通过这些指标的综合作用，可以从多个维度全面评估模型的DTLP反演性能，包括总体误差幅度、对极端偏差的敏感性、变异性一致性和系统偏差。评估指标的公式如下：
(1)
(2)
(3)
(4)
其中表示第个样本的参考DTLP值，表示相应的反演值。和分别表示参考和反演DTLP值的样本均值，表示样本总数。数据集准备
在本研究中，采用MERRA-2的时空坐标系统作为参考框架，并将FY-4A卫星观测数据和DEM数据相应地进行配准，确保所有数据源在空间分辨率和时间维度上的一致性，从而最小化模型训练过程中由于尺度不匹配导致的系统偏差。为了空间对齐，使用MERRA-2网格（水平分辨率为0.5° × 0.625°，即纬度×经度）作为目标网格。FY-4A的亮度温度数据通过双线性插值重新采样到该网格上。DEM数据也被插值到同一网格，并作为静态输入通道纳入。因此，最终的输入张量的维度为（此处应填写具体的维度值），其中表示样本数量，表示空间网格大小，7表示输入通道的数量（六个亮度温度通道和一个DEM通道）。在时间匹配方面，选择了与MERRA-2的每小时时间戳完全对应的FY-4A观测数据，以避免时间插值引入的不确定性，确保每个样本对应相同的观测时间窗口。为了保证数据质量，对FY-4A红外亮度温度通道的时间序列应用了基于四分位距（IQR）的方法进行异常值检测。超出该范围的值被视为异常值，并用训练集中相应网格点的平均值替换。这一过程有效减轻了云层污染和仪器噪声对极端亮度温度值的影响。对于数据标准化，所有七个输入通道（TBB09–14和DEM）都使用Z分数标准化进行标准化，其中表示从训练集中计算出的平均值，表示标准差。每个通道分别独立进行标准化。标准化参数仅从训练集中得出，并应用于验证集和测试集，以防止数据泄露。目标变量DTLP也使用相同的方法进行标准化，模型输出通过反向标准化转换回物理单位（hPa）。

本研究关注2018年至2023年的冬季（12月至次年2月）。经过时空匹配和质量控制后，共获得了12,584个有效样本。为了避免随机分割可能引起的时间数据泄露，采用了时间顺序划分策略。具体来说，2018–2021年的冬季数据用作训练集（8,462个样本），2022年的冬季数据用作验证集（2,116个样本），2023年的冬季数据保留为独立测试集（2,006个样本）。训练集用于模型拟合，验证集用于超参数调整和训练监控，测试集用于最终性能评估。所有报告的结果和评估指标均基于这个独立测试集，以确保客观性。

为了进一步验证时间划分策略的合理性，检查了六个冬季（2018–2023年）DTLP样本分布的一致性。平均值范围为170.28至194.71 hPa，标准差范围为57.3至64.8 hPa，表明分布特性相对稳定。测试集（2023年冬季）的平均值为186.92 hPa，标准差为60.42 hPa，均在训练集和验证集的范围内，表明没有显著的分布偏差。这证实了时间分割策略没有因分布不匹配引入系统偏差，数据集设计在统计上是合理的。本研究没有应用数据增强技术，所有评估均基于真实观测样本。

4. 实验结果与分析
4.1 DTLP检索性能的时间评估
为了定量评估不同DTLP检索模型在时间维度上的性能差异，采用RF模型作为传统机器学习的基线。对于独立测试集中的2,006个时间步长样本，分别计算了多个评估指标，并使用箱线图对其分布进行了比较分析（图4），从而反映了每个模型在整个青藏高原不同时间点的检索准确性和稳定性。在相同的六通道卫星输入配置下，ResUNet和Att-ResUNet相对于RF模型显示出持续的改进。具体来说，ResUNet的平均MAE和RMSE从32.27 hPa和42.54 hPa（RF）降低到29.24 hPa和40.59 hPa（图4a,b），分别提高了9.39%和4.58%（表2），表明基于编码器-解码器的深度学习架构在捕捉DTLP的非线性特性方面比传统机器学习方法更有效。在相关性方面（图4c），平均R值从0.70（RF）略微增加到0.71（ResUNet）；然而，箱线图分布变得更加紧凑，分散度降低，凸显了ResUNet的优越稳定性。在引入注意力机制后，Att-ResUNet模型的平均R值进一步提高到0.73，相对于RF提高了4.29%，表明注意力模块有效增强了模型捕捉DTLP整体时间变异性的能力。

基于这一框架，通过加入DEM数据构建Att-ResUNetDEM模型，该模型明确考虑了地形效应，进一步提升了性能。平均MAE和RMSE分别降低到28.01 hPa和38.63 hPa，相对于RF提高了13.20%和9.19%，而平均R值提高到了0.76，提升率约为引入注意力机制的两倍。这些结果表明地形信息在增强模型表示DTLP空间分布和结构特性方面的能力方面具有显著附加值。从系统偏差的角度来看（图4d），RF、Att-ResUNet和Att-ResUNetDEM分别显示出轻微的负偏差，平均MBE值为-2.15 hPa、-2.61 hPa和-4.77 hPa，而ResUNet显示出中等程度的正偏差，平均值为1.84 hPa。尽管各模型之间的偏差方向存在差异，但三种深度学习模型（RF除外）的箱线图分布更加集中，分散度降低，进一步证明了深度学习方法在DTLP检索中的时间稳定性优势。

总体而言，随着模型架构和输入信息的逐步增强，DTLP检索性能得到了持续提升。在所有模型中，结合了注意力机制和地形信息的Att-ResUNetDEM框架在准确性、相关性和稳定性方面取得了最佳表现。

4.2 DTLP检索性能的空间评估
为了进一步评估不同模型的整体空间检索能力，与上述基于单时间空间场的评估不同，使用2006个测试样本从网格点统计角度进行了全面分析。具体来说，计算了每个空间网格点的检索误差和相关性，并得出了每个网格点的平均MAE和相关系数R，以表征空间检索性能。从MAE的空间分布（图5）可以看出，所有模型的高误差区域都呈现出明显的带状结构，中心位于大约30°N附近。这一模式与图1中显示的大DTLP梯度和标准差区域高度一致。这些区域对应于中纬度过渡带，其特征是急倾斜的对流层顶结构和强烈的时空变性，这本质上增加了检索难度。相比之下，青藏高原北部和南部的DTLP结构相对稳定，导致的检索误差较低。这一结果表明，仅基于全盘卫星观测的半球尺度检索评估可能会掩盖中纬度复杂区域的模型缺陷，因为高纬度和低纬度的DTLP条件相对稳定，这强调了基于网格点的空间性能分析的必要性。

图5. 基于2006个样本的网格点平均绝对误差（MAE；hPa）的空间分布：(a) RF，(b) ResUNet，(c) Att-ResUNet，(d) Att-ResUNetDEM。在中纬度区域的模型比较中，RF模型在检索误差上表现出明显的东西向差异，东部误差较高，西部误差较低。高误差中心位于青藏高原东南部，最大MAE达到51 hPa，表明西部高原的检索性能整体优于东部地区（图5a）。ResUNet模型在中纬度区域的检索误差有所改善，东部高原的高误差中心降至约45 hPa，西部高原的误差从约48 hPa降低到42 hPa（图5b）。在引入注意力机制后，Att-ResUNet模型在青藏高原东部的改进最为明显，误差进一步降低到约39 hPa，空间分布模式与前两种模型不同，东部的检索准确性更高（图5c）。这表明注意力机制有效增强了模型捕捉东部高原大的DTLP梯度和空间异质性的能力。随着进一步加入地形信息，Att-ResUNetDEM模型在整个中纬度区域表现出明显的“峰值降低和低谷填充”效应，高误差区域超过30 hPa的轮廓显著缩小，空间误差分布更加均衡（图5d）。

与MAE相比，网格点时间R更直接反映了模型再现DTLP时间变异的能力。如图6所示，所有四个模型的高相关区域都分布在青藏高原南部边缘的准带状区域，空间方向与南部高原的主要地形特征一致。

详细分析显示，RF模型在青藏高原南部大约93°E处形成了一个局部高相关中心，相关值约为0.40，而在34°N以北的大部分区域相关值低于0.20，甚至在青藏高原东北部出现了弱负相关（图6a），表明RF在捕捉北部区域的时间变性方面的能力有限。ResUNet模型显著改善了整体相关模式，消除了东北部的负相关区域，并将南部和西部高原的最大相关性提高到了约0.55（图6b），相对于RF提高了约22%。引入注意力机制后，0.50等高线所围成的区域显著扩大，覆盖了南部和西部大部分地区，南部和西部高原的局部相关性超过0.60；然而，东北部的改进幅度仍然有限（图6c）。在Att-ResUNetDEM模型中加入地形信息后（图6d），南部和西部高原的相关性总体上提高了约0.05，南部大部分区域的相关性超过0.60，东南部的局部相关性达到约0.65。相比之下，东北部低相关区域略有扩大并向北移动，但其改进幅度明显小于南部地区。总体而言，网格点时间相关性从RF到ResUNet再到Att-ResUNet和Att-ResUNEM呈现逐步增强。改进主要集中在青藏高原南部和相邻的喜马拉雅地区，而在北部高原的改进相对有限。深度卷积架构增强了表示主要变异带的时间一致性，注意力机制进一步强化了关键区域的特征提取，地形信息的加入在受地形强烈控制的区域提供了有效的约束，从而提高了相关性性能。

4.3 DTLP梯度的空间分布评估
上述评估主要基于网格点误差统计，侧重于单个空间位置的检索准确性。然而，这种方法仅代表局部误差分析，无法完全揭示不同纬度网格点之间的时间变化是否具有一致性，即模型是否能够正确再现DTLP的协调空间演变。在天气和气候过程中，DTLP空间梯度的增强或折叠通常与重要的动态过程密切相关，并且与平流层-对流层的交换有着密切的联系，这对航空安全具有重要的意义。因此，仅依赖网格点误差指标是不足以全面评估模型表示关键动态结构的能力的。如图1所示，青藏高原上DTLP的最显著空间变化特征是强烈的经向梯度。为了进一步评估模型再现空间结构变化的能力，引入了DTLP的经向梯度，其中表示纬度，是地球的半径（6371公里）。这个量表征了不同纬度间DTLP的相对变化；其误差不仅反映了点态偏差，还反映了相邻纬度之间是否保持了一致的变化趋势，从而间接评估了空间协调演化的保持情况。从MAE的空间分布来看（图7），所有四个模型在中纬度地区都显示出高误差区域，东部的误差值略大于西部，这与DTLP本身的高误差中心的空间模式一致，表明强梯度区域仍然是主要的检索挑战。在RF模型中，只有零星的0.4 hPa/km等值线出现（图7a）。ResUNet模型显示出一个加剧的高误差中心，并出现了0.45 hPa/km等值线（图7b）。在Att-ResUNet模型中，高误差中心减弱，0.4 hPa/km等值线相对于ResUNet有所收缩（图7c），尽管受影响的区域仍然比RF模型的大。总体而言，虽然引入深度卷积结构提高了网格点DTLP的检索精度，但其在表示经向梯度方面的优势并不明显；在纬度差异过程中，局部误差被放大，导致梯度MAE的高值中心增强。在加入注意力机制后，高误差区域显示出部分收敛，但整体梯度性能并未超过RF模型。图7。与图5相同，但针对的是DTLP的经向梯度（hPa/km）。相比之下，Att-ResUNetDEM模型在网格点检索精度上明显优于RF模型，同时在梯度MAE的高值中心强度和空间范围上也与RF模型相当（图7d）。这表明，在引入地形信息后，模型提高了局部拟合能力，同时更好地保持了纬度间的误差一致性，从而防止了梯度误差的进一步放大。在四个模型中，Att-ResUNetDEM在点态精度和空间结构保留之间实现了相对平衡。

时间相关性的空间分布（图8）通常与网格点DTLP相关性（图6）相似。然而，与样本级评估（表3）相比，整体改进较为有限，这与梯度的差异计算有关。差异操作放大了相邻网格点之间的空间残差，从而限制了空间梯度相关指标的改进空间。尽管如此，所有模型在喜马拉雅山脉及其南部地区的相关性都有更明显的增强。特别是在RF模型中，0.40等值线相对于图6a有所扩展，喜马拉雅山脉以南的高相关性中心超过了0.50。ResUNet将这一中心提高到了大约0.60（图8b）。Att-ResUNet将0.60等值线进一步向南延伸至喜马拉雅山脉，峰值约为0.65（图8c）。在加入地形信息后，Att-ResUNetDEM在该区域形成了一个大约0.70的高相关性中心（图8d），展示了模型间的明显逐步提升。相比之下，34°N以北的相关性模式与相应的网格点DTLP相关性仅有微小差异。表3。四种模型的梯度反演误差评估及其相对于RF模型梯度的改进率。这些差异表明，经向梯度场在青藏高原南部表现出更明显的结构信号。由于该地区地形起伏明显，对流层顶的南北坡度变化更为显著，经向梯度对地形强迫的响应更为直接。随着模型架构的逐步改进，特别是在加入地形信息后，表示地形控制坡度变化的能力得到加强，从而在高原南部边缘的梯度相关性上取得了更大的改进。图7和图8的联合分析显示，ResUNet和Att-ResUNet模型在局部梯度MAE上高于RF模型，同时获得了更高的梯度相关系数（R），表明这两个指标之间存在反比关系。这种差异是因为MAE和R表征了模型性能的不同方面。具体来说，深度学习模型中的编码器-解码器架构增强了捕捉DTLP整体时间演变的能力，从而提高了相关性（R），与RF模型相比有所改进。然而，网络在每个网格点上独立进行特征优化，缺乏对相邻网格点空间一致性的明确约束。因此，用于计算梯度的差异操作放大了空间中的符号交替残差，导致局部梯度MAE增加。通过将DEM作为地形先验信息，Att-ResUNetDEM模型有效地限制了相邻网格点之间误差的空间一致性。这不仅提高了点态精度，还抑制了由空间差异引起的梯度误差的放大。因此，Att-ResUNET模型在四种模型中实现了梯度MAE和R之间的更好平衡。

4.4. 案例研究：DTLP检索在湍流事件分析中的应用
为了评估模型在青藏高原主要航空走廊上的适用性，在30°N至90–104°E范围内对观测值和检索值进行了比较分析。该区域代表了高原上的核心飞行走廊。特别是在冬季，对流层顶高度相对较低时，飞机经常在接近或甚至高于对流层顶的高度飞行，因此准确表示DTLP具有重要的实际意义。如图9所示，RF模型的相关系数为0.80，表明线性一致性相对较强。散点基本上沿着对角线分布，表明模型较好地捕捉了整体的梯度变化趋势。然而，沿对角线的点分布较广，反映了较高程度的分散，尤其是在0.08–0.15 hPa/km的中等梯度范围内，预测波动更为明显。这表明RF模型在弱梯度到强梯度转变的过渡区域仍然表现出有限的稳定性。相比之下，Att-ResUNet模型（R = 0.73）显示出整体相关性的明显下降。这种下降归因于注意力机制中使用的全局平均池化操作来计算通道权重，这种操作天然倾向于偏好空间上占主导地位的弱到中等梯度模式，同时系统性地抑制了空间集中且间歇性的强梯度信号——例如由于青藏高原南部边缘地形突变引起的强烈经向DTLP梯度。此外，在缺乏DEM信息的情况下，模型缺乏明确的空间先验来区分地形控制的梯度转变和背景大气变异性，这进一步放大了上述抑制效应。因此，模型在中等至强梯度区域（>0.10 hPa/km）的拟合能力下降，散布增加，如图9c所示。然而，两者在不同梯度区间都显示出结构上的改进。ResUNet在中等至强梯度范围（>0.10 hPa/km）中表现出分散减少，极端高值的偏差减小，而Att-ResUNet在弱梯度区域（<0.10 hPa/km）中提高了预测稳定性，散点变得更加集中，表明了对弱梯度结构的更好表示。图9. 在90–104°E范围内沿30°N的观测值与检索值的散点图。(a) RF；(b) ResUNet；(c) Att-ResUNet；(d) Att-ResUNetDEM。在进一步加入地形信息后，Att-ResUNet模型的性能显著提升，相关系数增加到0.87。散点分布在对角线上形成了更窄的带状，保持了弱梯度（<0.05 hPa/km）和强梯度（>0.15 hPa/km）区间的高一致性。分散程度明显小于其他三个模型，表明误差方差显著减小。这些结果表明地形因素对高原上的对流层顶梯度结构有显著的调节作用。通过将DEM信息嵌入网络，模型更有效地学习了复杂地形对动态对流层顶的影响，从而提高了检索的稳定性和一致性。

为了进一步验证深度学习模型在DTLP检索中的实际适用性，选择了2023年2月11日发生在拉萨-重庆飞行路线上的一个CAT事件进行分析。这一事件被Liu等人[91]识别为由对流层顶折叠引起的，因此它是评估检索结果物理合理性的一个适当代表案例。需要注意的是，MERRA-2再分析数据提供的DTLP场本身不足以解析详细的折叠结构，而是反映了与这些过程相关的大规模对流层顶配置。因此，这项分析的重点不是显式地再现折叠过程，而是评估检索结果是否能够合理地表示在这种复杂动态背景下的整体对流层顶形态及其梯度分布。根据当天的MERRA-2数据，湍流位置附近的DTLP等值线相对较直，呈现出准纬向模式，密集等值线区域主要位于湍流点以北（图10a）。飞机的巡航高度大约为250 hPa（10,743 m），而当地的DTLP约为115 hPa，表明飞机在对流层顶以下飞行，这与典型的对流层顶折叠相关CAT事件的空间配置一致。最近对中国上空平流层扰动的观测研究表明，对流层顶附近的重力波不稳定性可能与CAT的触发有关，这表明青藏高原及其周围地区的平流层动态扰动是理解高原上CAT发生机制的重要背景因素[22]。图10. 2023年2月11日06:30 UTC时的DTLP（黑色等值线；hPa）及其经向梯度（阴影；hPa/km）。图(a)显示参考场，图(b)显示Att-ResUNetDEM模型检索的DTLP。红色三角形表示CAT事件的位置（29.76°N, 99.62°E）。与参考场相比，Att-ResUNetDEM模型检索的DTLP整体MAE为7.2 hPa，空间相关系数为0.93（图10b）。与之前的统计分析一致，在青藏高原东南部观察到更高的检索精度。在湍流区域内，检索场与参考值非常吻合，并成功再现了事件北部增强经向DTLP梯度区的位置，表明模型在复杂的地形和强梯度条件下保持良好的稳定性。尽管如此，由于网络结构的固有平滑效应，检索结果在局部尺度上仍表现出一定程度的空间平滑，对流层顶中小尺度南北扰动的表示仍有进一步提高的空间。总体而言，这个案例研究验证了深度学习检索结果的物理一致性，从大规模结构和梯度分布的角度支持了它们在对流层顶斜率分析和航空气象背景评估中的潜在应用。

5. 讨论
5.1. 再分析标签的不确定性
作为监督学习的目标变量，再分析数据的质量直接限制了检索精度的上限。在复杂地形上，再分析产品中的系统偏差是基于深度学习的DTLP检索中不确定性的重要来源。为了评估MERRA-2在研究区域的代表性，引入了ERA5的2-PVU表面作为独立参考。以2023年2月11日的CAT事件为例，对湍流位置附近99°E横截面上的DTLP结构进行了多数据集比较（图11）。结果显示，在36°N以南，两个数据集的DTLP分布及其时间演变总体一致。此外，两者都与GARZE站（31.62°N）无线电探空仪剖面在250 hPa附近推断的递减率对流层顶（LRT）高度相当（图11b,e），为MERRA-2在青藏高原南部的可靠性提供了支持证据。相比之下，在36°N以北，MERRA-2表现出明显的短期振荡，而ERA5则相对稳定。在DULAN站（36.30°N）进行的无线电探空观测（图11c,f）表明，两次观测时的LRT高度保持稳定，与ERA5的结果更为吻合。因此，MERRA-2中的振荡行为与观测到的大气结构不一致，这表明该模型在北方高原地区的可靠性较低。这一特征与统计分析中识别出的空间模式一致，即在北方高原地区观察到更高的MAE和更低的R值。这表明该模型性能下降的部分原因在于监督标签本身的不确定性，而不仅仅是模型架构的局限性。此外，MERRA-2提供的DTLP是一个网格化的标量场，缺乏表示详细的三維對流層頂界结构的能力，而ERA5则提供了等熵表面（图11a,d）。在未来的工作中，结合多个再分析数据集进行联合监督，以及引入更高分辨率的三維對流層頂界产品，将是减少标签不确定性并进一步提高模型泛化能力的重要方向。

图11. 2023年2月11日00 UTC时沿99°E方向的縱向垂直剖面图及附近經度的相应无线电探空温度剖面。(a) MERRA-2提供的DTLP的縱向垂直分布（青色虚线）和ERA5提供的2-PVU表面（红色实线）。黄色和蓝色虚线分别表示GARZE探空站（31.62°N, 100.0°E）和DULAN探空站（36.30°N, 98.1°E）的纬度位置。(b) GARZE站00 UTC时的无线电探空温度剖面。(c) DULAN站00 UTC时的无线电探空温度剖面。(d–f) 与(a–c)相同，但为12 UTC时的数据。

5.2. 输入特征贡献与地形先验的作用
基于输入掩码方法的通道重要性分析（图12）显示，TBB09（6.25 μm）的贡献最为显著（归一化重要性=1.000），其次是TBB10（7.1 μm）和TBB11（8.5 μm），而其他通道的贡献显著降低，TBB13（12.0 μm）的贡献几乎为零。这一排名与Shou等人[76]基于FY-4A数据报告的全球DTLP反演的通道敏感性结果高度一致。值得注意的是，在本研究中TBB12和TBB14仍表现出可测量的贡献，这与某些全球反演框架有所不同，反映了青藏高原冬季条件的区域性特点。

图12. 使用输入掩码方法评估的Att-ResUNetDEM模型中七个输入通道的归一化重要性。蓝色条形代表六个FY-4A红外亮温通道（TBB09–14），红色条形代表DEM通道。重要性值是相对于最具影响力的通道（TBB09）进行归一化的，范围从0到1。DEM通道的归一化重要性（0.119）低于大多数卫星亮温通道；然而，这并不意味着地形信息的价值有限。掩码方法基于整体MAE的变化来评估通道重要性，主要反映了其对点态绝对精度的影响，但在捕捉地形对空间结构约束的作用方面能力较弱。如第4.3节所述，在加入DEM后，Att-ResUNet模型在青藏高原南部地形控制区域的DTLP经度梯度相关性系数上提高了约0.05–0.10（图8c,d），表明空间结构一致性明显增强。这表明地形高度作为空间先验的主要贡献在于限制相邻网格点之间的误差空间一致性，并抑制由差分运算引起的局部残差放大。这种贡献与MAE所反映的点态精度改进本质上是不同的。在本研究中，仅将地形高度作为基本的形态特征纳入考虑。未来工作需要系统研究其他与地形相关的参数（如坡度、朝向和表面粗糙度）对DTLP空间分布的潜在调制效应。

6. 结论
青藏高原位于亚洲季风环流和中纬度西风的交汇处，叠加了显著的地形强迫作用，导致了复杂的动力结构和明显的季节性变化。冬季时，對流層頂界高度较低，水平梯度增强，使得这一区域成为平流层-对流层交换、急流活动和卷云（CAT）发生的重要区域。它还代表了评估动力对流層頂界反演模型空间结构表示和梯度敏感性的典型中纬度复杂动力环境。以往的研究基于半球尺度的卫星观测数据，使用统一的跨纬度和跨季节样本训练和评估线性模型。尽管这种方法有助于生成空间一致的大尺度产品，但不同纬度和季节的样本混合可能会削弱模型捕捉复杂地形区域局部动力结构和梯度特征的能力，从而掩盖不同地区的反演性能差异。为了解决这个问题，本研究采用了区域化和季节特定的建模策略，构建了基于ResUNet的深度学习反演框架，并逐步引入了注意力机制和DEM地形信息，以实现模型结构的层次化优化。结果表明：
(1) 整体空间误差评估表明，随着模型结构的改进和额外输入信息的加入，反演的准确性和稳定性逐步提高。Att-ResUNetDEM模型在准确性、相关性和稳定性方面表现最佳。与RF模型相比，平均MAE和RMSE分别降低了13.2%和9.2%，平均相关系数增加到0.76，表明加入地形信息显著增强了模型在复杂地形区域表示DTLP空间分布的能力。
(2) 空间偏差分析显示，所有模型在30°N附近都出现了最大的误差，这是DTLP变化最活跃的区域，而在较低和较高的纬度，反演准确性相对较高。引入注意力机制和地形高度信息后，Att-ResUNet模型有效抑制了该区域的最大偏差，实现了“峰值减少和山谷填充”效果，形成了更加空间平衡的中纬度误差分布。空间相关性分析进一步表明，高原南部的R值通常高于北部，这与南部的地形配置和方向密切相关。Att-ResUNet模型在高原南部的相关性改进最为明显。这一发现与以往的全球规模研究不同，后者报告在中纬度（30–60°）的反演精度较低，但R值较高，反映了区域化训练和地形约束在复杂动力环境中的有效性。
(3) 基于经度DTLP梯度的定量评估表明，模型优化过程中梯度偏差幅度的改进相对有限；然而，梯度场的空间结构一致性随着模型的优化而明显改善，特别是在青藏高原南部。在主要高原飞行走廊区域（30°N, 90–104°E），RF模型的R值为0.80，而Att-ResUNetDEM模型的R值增加到0.87。强梯度和弱梯度区域的偏差都被有效抑制，案例比较进一步证实了这些评估结果的稳健性。
总体而言，从区域建模和地形约束整合的角度来看，本研究验证了深度学习框架在具有复杂地形和多环流影响区域进行动力对流層頂界反演的优势。结果表明，在受季风环流强烈影响且背景变异较大的区域，实施区域特定训练和嵌入地形信息有助于提高反演准确性和梯度一致性，为高分辨率对流層頂界监测和复杂中高纬度地区的子区域建模提供了方法论支持。

热点排行