MSF-PhyDRNN：一种基于物理原理的多源融合循环神经网络，用于短期雷暴大风天气预测耿?通（Huantong Geng）、马绍强（Shaoqiang Ma）、马克飞（Kefei Ma）、庄晓冉（Xiaoran Zhuang）、张华龙（Hualong Zhang）以及兰宇（Yu Lan）

《Remote Sensing》：MSF-PhyDRNN: A Physics-Driven Multi-Source Fusion Recurrent Neural Network for Short-Term Thunderstorm Gale Nowcasting Huantong Geng, Shaoqiang Ma, Kefei Ma, Xiaoran Zhuang, Hualong Zhang and Yu Lan

【字体：大中小】 时间：2026年04月28日 来源：Remote Sensing 4.1

编辑推荐：

　　**亮点：** **主要发现是什么？** 提出的MSF-PhyDRNN模型通过使用新型的多源融合模块和基于PredRNN++的轻量级循环单元，有效整合了雷达和地表风速数据。通过引入动态加权平均平方误差损失函数，该模型显著提高了极端风速的预测能力，与先进的MFWPN模型相比

　　**亮点：**
**主要发现是什么？**
提出的MSF-PhyDRNN模型通过使用新型的多源融合模块和基于PredRNN++的轻量级循环单元，有效整合了雷达和地表风速数据。通过引入动态加权平均平方误差损失函数，该模型显著提高了极端风速的预测能力，与先进的MFWPN模型相比，CSI平均提高了14.3%，POD提高了27.2%，HSS提高了19.7%。

**主要发现的意义是什么？**
这一物理驱动的框架成功解决了现有深度学习方法的局限性，特别是在高风速阈值下性能下降的问题。准确预测具有高度破坏性的雷暴大风为减少与风相关的灾害和保护生命财产提供了关键而稳健的工具。

**摘要：**
准确预测雷暴大风（一种高度破坏性的强对流天气形式）对于减轻与风相关的灾害和确保生命财产安全至关重要。现有的深度学习方法面临挑战，如在高风速阈值下性能下降、捕捉极端事件的能力有限以及处理高分辨率数据的困难。为了解决这些问题，本文提出了一种新型的物理驱动的多源融合循环神经网络MSF-PhyDRNN。该模型通过特征解耦和层次融合整合了雷达复合反射率和地表风场数据。此外，我们对PhyDNet中的循环单元进行了改进，以增强对短期风速的捕捉并减少冗余，利用其级联记忆和时空传播机制。实验结果表明，与先进的MFWPN模型相比，MSF-PhyDRNN在江苏和中国南方数据集中的关键成功指数（CSI）平均提高了14.3%，检测概率（POD）提高了27.2%，海德克技能得分（HSS）提高了19.7%。

**1. 引言：**
雷暴大风预报是指利用历史气象观测数据来预测强对流天气的未来发生和演变。本质上，它是一项以近地面风速的时空预报为中心的风速预测任务。这一过程为强对流天气警报提供了关键的数据支持，并在减轻突发性和破坏性风灾的影响方面发挥了重要作用。准确的短时预报显著提高了预警的及时性和可靠性，对灾害预防和缓解、公共安全以及基础设施和交通的保护具有重要意义。因此，深入研究和优化雷暴大风预报方法对于推进现代气象灾害预防系统和应急管理实践至关重要。

当前的风速预测方法大致分为基于物理的建模和数据驱动的方法。基于物理的方法通过求解复杂的热力学和流体动力学方程组来模拟大气流动动力学。代表性模型包括天气研究与预报（WRF）模型和各种综合预报系统（IFS）[1,2]。当有高质量的输入数据支持时，这些方法可以产生高时空分辨率和物理可解释的风场预测结果。然而，它们在实时操作预报方面存在关键局限性。具体来说，复杂的数据同化过程和偏微分方程的迭代求解在执行阶段需要持续的高性能计算资源，通常导致较长的延迟时间。这种固有的延迟使得难以提供0-2小时短期强对流预报所需的快速、分钟级的更新，从而限制了它们的操作灵活性和及时性[3,4]。

数据驱动的方法主要包括统计模型和传统的机器学习算法。经典统计模型如ARIMA可以捕捉风速的时间变化[5,6,7]，结合小波变换或去趋势操作的改进版本也被提出[8,9]。然而，它们的线性假设使得它们无法模拟风场的强非线性和非平稳特性，尤其是在长时间预测范围和快速变化的强度情况下。传统的机器学习方法，包括SVM、人工神经网络和支持向量回归，在风速预测中得到广泛应用[10,11,12,13]。尽管在小型数据集上表现尚可，但这些浅层模型缺乏足够的特征提取能力来处理大规模的区域时空数据，并且依赖于效率低下的手动参数调整，难以满足实时和高精度预测的要求[14,15]。

深度学习凭借其卓越的非线性特征建模和自动表示学习能力，在风速预测中受到了广泛关注[16]。与传统机器学习方法相比，深度学习模型利用更深层次的网络架构和层次化特征提取来更准确地捕捉和拟合风场中的复杂非线性时空关系。长短期记忆（LSTM）网络[17]作为时间序列预测的基石，利用独特的记忆和遗忘门机制有效地捕捉序列数据中的长期和短期时间依赖性。在此基础上，李等人提出了一个结合门控循环单元和变分模式分解的混合框架，用于短期风速的区间预测[18]。Farah等人开发了一个结合数据分解技术和双向LSTM的预报框架，以实现精确的短期风速估计[19]。同样，魏等人使用自编码器和奇异值分解从风速及相关气象变量中提取关键特征，然后通过基于GRU的建模进行单点风速时间序列预测[20]。这些方法统称为单点预测方法，主要关注单个观测站点的时间序列建模。然而，作为流体介质的风表现出显著的空间相关性。孤立分析单个站点数据或简单模拟有限站点之间的空间相关性，同时忽略区域时空相互作用，不可避免地限制了模型表示复杂风场动态的能力，从而限制了预测的准确性。

超越空间孤立建模的限制，大量的时空预测研究采用了如ConvLSTM这样的模型，它结合了卷积网络和循环网络来捕捉风场动态。杨等人开发了一个深度注意力卷积循环模型，结合K均值聚类和增强的记忆机制，利用注意力层、CNN和RNN深度挖掘和表示风场时空特征，显著提高了预测性能[21]。类似地，参考文献[22]通过结合UNet的强大特征提取和重建能力与ConvLSTM的时空建模，实现了准确的每小时太阳辐射预报。然而，基于LSTM的模型在多层架构中的梯度传播面临挑战，导致信息聚合不足和多步预测场景中的预测准确性不佳。STDGN采用自注意力分离策略有效整合了空间、时间和多变量信息，并通过不确定性损失函数进行优化，以实现精确的多变量气象预报[23]。林等人提出了一个结合注意力机制和卷积操作的模型，以增强高精度海上风速预测的时空特征提取[24]。在风速预测中，模型误差主要是系统性的，源于确定性物理过程的表示不足；不确定性误差则源于风的固有随机性和不可控因素[25]。张等人开发了一个基于卷积-自注意力架构的深度学习模型，通过时空融合模块和复合损失函数优化，实现了高精度的高空风速预测[26]。尽管结合了多变量数据（如温度和压力）可以降低预测不确定性，但目前的多任务预报方法仍有限制。值得注意的是，标量风速预报在灾害预防方面比向量风场分析具有明显优势。与风能发电不同，风能发电需要精确的向量风场数据来调整涡轮机角度，而灾害预防更关注风速大小，作为对结构、设施和人类安全的直接威胁指标，为应急决策提供清晰的风险量化。此外，标量风速预报避免了解析耦合风速和方向分量的计算复杂性，降低了模型复杂性和数据处理成本，能够在复杂对流天气情况下快速响应。因此，标量风速预报是一种实用且高效的方法，适用于实时风险评估和灾害预防的需求。

然而，高效的预报目标必须得到全面和高质量输入数据的支持。单一数据源本身不足以精确分析和预测复杂的风生成机制。将捕捉对流系统垂直结构、水平范围和运动的高分辨率雷达复合反射率与反映近地面风速、方向和脉动地表风场观测数据相结合，可以提供高度互补的见解。由于对流降水系统主要由高层引导流而非近地面风驱动，雷达反射率的高层运动作为这些天气系统大尺度运动的物理代理至关重要。这种高层运动反过来动态引导近地面风场的大尺度变化轨迹。具体来说，历史天气事件的比较分析显示，S波段雷达复合反射率中的高回波区域与高表面风速区域表现出高度的时空一致性和一致的移动轨迹，如图1所示。

**图1. S波段雷达复合反射率与地表风场之间的视觉相关性。**
尽管天气雷达在晴朗区域通常缺乏数据，但雷暴大风与强烈的降水核心密切相关。因此，跟踪这些高回波区域为预测极端风提供了足够运动学背景。此外，由于物理和操作限制，目前排除了多普勒（径向）速度。从物理上讲，径向速度主要反映了中高层风，而大风灾害是由近地面风（例如10米高度）定义的，因此自动站观测是不可或缺的地面真实值。在操作上，原始多普勒速度在极端风中会受到严重的混叠（折叠）影响。实时去混叠所需的巨大计算开销给0-2小时的预报带来了重大挑战。因此，将质量控制过的复合反射率与地表数据融合，确保了模型的最佳稳定性和计算效率，同时有效解决了观测空白。最终，这种有针对性的方法捕捉了将中尺度系统与雷暴大风联系起来的物理生命周期，提高了整体预报准确性。

**2. 数据：**
实验是在2021-2023年中国南方数据集和2022年江苏气象AI算法挑战数据集上进行的。
2021-2023年中国南方数据集包含了2021年至2023年中国南方地区的雷达复合反射率数据和地表风速观测数据。雷达复合反射率数据的时间分辨率为6分钟，空间分辨率为0.01°（大约1公里），而地表风速数据的时间分辨率为5分钟，空间分辨率也为0.01°。雷达数据经过插值处理，以匹配地表风速数据的空间和时间分辨率。数据覆盖的范围是东经109.45°到117.20°，北纬20.09°到25.31°。该地区具有亚热带季风气候特征，是雷暴大风的高发区。受海陆热差异的影响，夏季经常出现冷暖空气团的汇聚，不时受到台风和亚热带高压系统的扰动，使其成为风速预测的理想研究案例。数据集包括13,294个风事件，每个事件由24帧连续数据组成（共2小时），原始空间分辨率为每帧600 × 800像素。由于计算限制，数据通过双线性插值降采样至120 × 140像素。在这13,294个事件中，11,136个样本被用于训练集，2,158个样本用于验证集，所有像素值都被归一化到[0, 1]范围内。

2022年江苏省气象人工智能算法挑战赛的数据集包含了来自中国江苏省2019年至2021年4月至9月的雷达复合反射率和自动气象站数据。数据包括质量控制的S波段雷达反射率因子数据（高度为3公里）以及6分钟平均风速观测数据。数据覆盖的范围是东经116.18°到121.57°，北纬30.45°到35.20°。该地区位于长江中下游平原，靠近海岸和河流区域，受到亚热带高压系统、低压涡旋和东北冷涡旋的影响，因此经常出现频繁且复杂的雷暴大风，是风速预测研究的理想区域。数据集的空间分辨率为0.01°（大约1公里），时间分辨率为6分钟，网格尺寸为480 × 560像素。雷达反射率范围从0到70 dBZ，平均风速数据范围从0到30 m/s，是通过将自动气象站观测数据使用逆距离加权（IDW）方法插值到均匀网格上生成的。尽管这种插值方法引入了一些误差，可能无法完全反映实际观测值，但它有效地利用了稀疏数据来捕捉气象变量的空间分布。由于计算限制和原始图像的较大尺寸，数据通过双线性插值降采样至120 × 140像素分辨率，并将所有值归一化到[0, 1]范围内。数据集使用了40时间步长的滑动窗口机制，其中前20帧作为模型输入，后续20帧作为预测目标，形成输入-输出样本对。从数据集中获得了26,328个有效序列样本，按9:1的比例分配，其中23,695个样本用于训练，2,633个样本用于验证。

3. 方法
3.1. 问题定义
本研究旨在预测大尺度、高分辨率网格化风场中的雷暴大风，这本质上是一个涉及空间（经度、纬度）、时间和变量维度的四维建模问题。具体来说，风场根据地理坐标被离散化为网格单元，每个单元作为标量风速的观测节点，共同构成一个用于预测的时空动态系统。用\(x_{i}\)表示特定时间步长\(i\)的多变量空间分布。历史观测数据序列\(\{x_{t}\}_{t = 1}^{T}\)可以表示为\(x_{t} = f(x_{t-1}, t \in \{1, 2, \cdots, T\})\)，其中\(t\)表示当前时间步长，\(T\)表示历史时间长度，\(C\)表示变量通道数量，\(H\)表示纬度高度，\(W\)表示经度宽度。在本研究中，江苏省和华南地区的数据集包含了雷达复合反射率和平均标量风速数据，因此\(C\)被设置为2。基于历史序列\(\{x_{t}\}_{t = 1}^{T}\)，可以得到后续时间步长的风速序列\(x_{t+1}\)，表示为\(x_{t+1} = f(x_{t}, t \in \{1, 2, \cdots, T\})\)。

3.2. MSF-PhyDRNN整体架构
MSF-PhyDRNN的模型结构如图2所示。该模型以20帧连续的雷达复合反射率和地表风场数据作为输入，预测随后20帧的标量风场数据。该架构的关键组成部分包括多源融合模块、编码器、由PhyCell和Simple PredRNN++组成的双分支递归核心以及解码器。具体来说，雷达复合反射率和地表风场数据的输入序列首先通过多源融合模块进行整合，然后由编码器映射到高维隐藏状态空间。接着，该架构采用解耦的时空建模策略，将这些编码特征分别送入两个并行递归分支。PhyCell分支明确建模对流系统的确定性物理动态，更新物理隐藏状态\(h_{t}\)；Simple PredRNN++分支捕捉物理方程无法完全解决的非线性时空残差特征，更新残差隐藏状态\(\hat{h}_{t}\)。这两个互补分支的输出通过逐元素相加聚合，形成当前时间步长的综合时空表示。最后，解码器将这个聚合的隐藏状态逐步映射回原始空间分辨率，生成未来标量风场的最终输出序列。

3.3. 多源融合模块
为了有效利用雷达复合反射率数据来校正风场特征，我们提出了一个多源数据融合模块。残差连接[30]通过将原始输入与卷积特征结合，可以有效缓解深度网络中的梯度消失问题，从而保持特征完整性。受此启发，我们在融合模块中引入了残差卷积增强（RCE）单元，采用三阶段卷积和残差融合来增强雷达复合反射率和风场数据的特征表示。此外，CBAM[31]通过通道和空间注意力机制增强关键特征，这启发了我们设计了自适应融合注意力模块（AFAM）。AFAM结合了通道门控注意力（CGA）和空间门控注意力（SGA），利用雷达复合反射率数据精确细化风场演化特征。CGA通过全局均值池化和最大值池化聚合通道统计信息，生成通道权重，以强化与风场演化密切相关的通道；SGA通过融合通道的平均值和最大值生成双通道特征图，并应用卷积和批量归一化来生成关注高风速核心区域的空间权重。AFAM的输出通过将CGA生成的通道权重与SGA生成的空间权重进行逐元素乘法，实现对风场演化特征的自适应增强。如图3所示，多源数据融合模块由残差卷积增强单元和自适应融合注意力模块组成。输入张量\(X\)沿通道维度被分割为\(X_{c}\)和\(X_{r}\)，然后将这些分离的特征分别送入相应的RCE单元进行特征增强。

3.4. Simple PredRNN++递归单元
雷暴大风的实时预报任务需要一个能够在长时间内稳定建模、准确捕捉非线性突变，并与物理约束的PhyDNet框架无缝集成的时空单元。传统的单元难以同时满足这些要求。经典的ConvLSTM[15]依赖于单一隐藏状态记忆，因此在多层长序列场景中容易发生梯度消失，导致1-2小时预报的准确性迅速下降。虽然MIM[32]引入了高阶记忆模块，但其对序列稳定性的假设限制了其捕捉极端雷暴大风事件强烈非线性突变的能力。相比之下，PredRNN++有效地解决了这些限制。它采用因果LSTM结构来分离空间和时间记忆，并引入了梯度高速公路单元（GHU），建立了时间步长间的直接梯度连接，从根本上缓解了梯度消失问题，允许关键对流特征在长序列中的稳定传输。此外，其潜在状态表示可以与PhyDNet分支的物理隐藏状态无缝整合并进行联合优化，无需大幅调整。因此，PredRNN++成为我们轻量级递归单元设计的理想基线。在这些理论优势的基础上，我们进一步针对高分辨率风场时间建模优化了PredRNN++架构，特别是通过引入参数共享机制。这种轻量级递归单元保留了PredRNN++的增强型记忆单元结构和时空门控机制。通过在时间步长和模型分支之间实现参数共享，递归单元显著降低了计算复杂性，并减少了过拟合风险，同时保持了捕捉长期时空依赖性的能力。详细架构如图4所示。具体来说，我们在第一层和第二层之间叠加了三个SimpleCausalLSTM层，并集成了一个SimpleGHU（梯度高速公路单元）。这种设计有效地缓解了叠层LSTM中长期梯度传播的困难，防止了时间记忆丢弃关键历史风场信息，并在复杂干扰或周期性变化下增强了递归架构的稳定性。

4. 实验与分析
4.1. 实现细节
在本研究中，所有实验均使用PyTorch（版本2.1.2）深度学习框架在NVIDIA RTX 4090 GPU（24 GB）上进行。为了确保科学可重复性，具体模型配置和训练超参数都明确给出。遵循多源融合模块的设计，空间编码器由3个卷积层（步长分别为2、1和2）和一个特定编码器（2个卷积层）组成。该结构提取了深度层次特征，同时将空间分辨率降采样4倍，并将通道维度映射至64。解耦的递归核心通过两个并行分支操作：PhyCell分支包含1层，隐藏维度为64，使用一个卷积核；Simple PredRNN++分支包含3层，统一使用64的隐藏维度和卷积核进行时空门控。解码器通过使用转置卷积对称地镜像编码器，逐步对潜在表示进行上采样，最终通过一个卷积将最终的32通道特征映射回原始分辨率下的单通道标量风速预测。在训练阶段，所有模型都进行了80个周期的训练，批量大小为8。网络权重使用Adam优化器进行优化，初始学习率为。为了更准确地关注高风速区域的预测误差，模型采用了加权均方误差（WMSE）损失函数，这是标准均方误差（MSE）的改进版本。该损失函数结合了一种专门为高风速特性设计的动态加权机制。加权基于最大风速值，对真实风速施加指数级缩放的权重。这个过程生成了一个随风速变化的权重矩阵，其大小被限制在一个适合严重风速评估的阈值范围内。这种设计为高风速区域分配更高的权重，为低风速区域分配较低的权重，从而在训练期间增强模型对高风速特征的关注，并最终提高对高风速事件的预测准确性。损失函数的公式定义如下：（13）（14），其中表示时间戳t时像素坐标处的实际风速值，表示相应的预测风速值，表示该特定像素的动态计算权重矩阵。此外，k是用于建立权重变化初始基线的权重基线系数，是一个控制权重变化速率的常数缩放因子。在我们的实验中，k和分别经验性地设置为和，这些值通过广泛的调整在操作场景中得到了优化，以适当惩罚极端风速误差。T是预测序列的总长度，而H和W分别代表风速预测场的高度和宽度。4.2 评估指标为了全面评估我们模型在风速预测任务中的性能，我们采用了三个标准气象评估指标：关键成功指数（CSI）[33]、检测概率（POD）[34]和Heidke技能分数（HSS）[35]。这些指标客观地量化了模型的预测能力和准确性。为了进行性能评估，我们应用了一个阈值将预测和真实场转换为二进制矩阵。具体来说，高于的值被设为1，否则设为0。基于这些二进制矩阵，进一步构建了一个混淆矩阵来分析模型的风速预测性能。在二元分类任务中，混淆矩阵是性能评估的标准工具，它列出了预测标签和实际标签之间的对应关系。如表1所示，它包括真正例（预测=1，实际=1，表示为TP）、假正例（预测=1，实际=0，表示为FP）、真负例（预测=0，实际=0，表示为TN）和假负例（预测=0，实际=1，表示为FN）。这些统计数据使得计算CSI、POD和HSS成为可能。在本研究中，实验使用了三个强度阈值：1.6 m/s、5.5 m/s和10.8 m/s。表1。二元分类的混淆矩阵。CSI，也称为威胁分数（TS），是预测风事件准确性的重要度量。在实际预报中，它有效地惩罚了漏检和误报，这对于评估极端风速警告至关重要。CSI值的计算公式如下：（15）POD反映了模型预测的正确事件与所有实际正确事件的比例。在操作性预警系统中，较高的POD表明对检测危险风的敏感性更强，确保错过的可能的雷暴大风事件更少。其计算公式如下：（16）HSS通过比较实际预测和随机预测之间的差异来衡量模型的预测效果。它提供了对预测技能的稳健评估，特别是在背景非事件频率极高的情况下。计算HSS的公式如下：（17）CSI和POD的值范围从0到1，HSS的值在-1到1之间变化。CSI、POD和HSS可以直观反映模型在现实世界应用中的性能，较高的值表示更好的预测性能。4.3 对比实验为了彻底验证所提出的MSF-PhyDRNN模型的先进能力和有效性，我们将其与几种最先进的基准模型进行了比较。选定的模型包括ConvLSTM [15]、PredRNN++ [27]、PhyDNet [28]、MIM [32]、SimVP [36]、Earthfarsser [37]、Diffcast [38]和MFWPN [26]。其中，ConvLSTM、PredRNN++和MIM代表经典的时空预测算法，而PhyDNet、SimVP、Earthfarsser、Diffcast和MFWPN被认为是已广泛应用于标准时空任务（如气象预报）的最先进的临近预报算法。所有比较模型的超参数都是根据它们各自的开源实现进行配置的，并根据我们实验任务的特定特性进行了进一步微调，以确保最佳性能。为了保证公平比较，所有模型都在相同的数据集上进行了训练，并接受了相同的训练协议，包括使用统一的优化器、学习率和训练周期数。图5a、b和图6展示了所提出的模型在三种不同的雷暴大风系统中的预测性能：多单元簇、超级单元和边界层汇聚线。图5. 两种严重雷暴大风情况的预测结果比较。在江苏数据集上对0-2小时风速预测的预报和观测风速进行比较，以两时间步间隔可视化。（a）案例I。多单元簇雷暴大风情况。（b）案例II。超级单元雷暴大风情况。图6. 边界层汇聚线雷暴大风情况的预测结果比较。在中国南方数据集上进行了24时间步的预测结果，以3时间步间隔可视化。如图5a所示，捕捉到江苏省的严重雷暴大风，观测到的风场显示出从西南向东北移动的集中空间分布。从质量上看，所有基线模型都难以保持高阈值风区的强度，与真实值相比显示出不同程度的低估。Diffcast的表现最差；其扩散架构缺乏适应严重对流突发的时空动态所需的适应性。虽然ConvLSTM、PhyDNet和MIM捕捉到了基本的结构特征，但由于在建模长距离时空依赖性方面的限制，它们在长期预测中的表现显著下降。SimVP和Earthfarsser相对较好地预测了运动趋势，但它们的强度预测在第12个时间步之后显著恶化。得益于其多源融合，MFWPN有效地捕捉到了形态演变，然而视觉检查仍然显示出风强度的系统性低估。相比之下，所提出的MSF-PhyDRNN架构在这些评估场景中展示了卓越的预测准确性和视觉保真度。如图5b所示，观测显示单个对流单元的减弱趋势。包括ConvLSTM、PredRNN++、PhyDNet、MIM、SimVP、Earthfarsser和Diffcast在内的模型都未能预测到这个孤立对流单元的发展。虽然MFWPN捕捉到了单元的发展，但从第8个时间步（t = 8）开始，它显著低估了其强度，预测质量在整个预测范围内迅速恶化。相比之下，MSF-PhyDRNN准确地预测了孤立对流单元的位置和强度，并且其对单元运动趋势的预测与整个时间序列中的实际观测高度一致。对于图6中显示的情况，虽然所有模型都有效地捕捉到了雷暴大风的整体运动和形态，但大多数模型在长期强度维持方面遇到了困难。具体来说，ConvLSTM、PredRNN++、PhyDNet、MIM和SimVP都过早地减弱了高风区域的强度。例如，ConvLSTM中的高风范围迅速缩小，而PhyDNet和MIM从第12个时间步开始严重低估。尽管PredRNN++具有梯度高速机制，但其强度衰减也加速了。相反，MFWPN、Earthfarsser和Diffcast最初很好地保持了高风范围，但在后期产生了强度误报。相比之下，所提出的MSF-PhyDRNN准确地跟踪了运动趋势，并在整个预测范围内稳定保持了高风强度，与真实值的一致性最高。为了定量评估模型性能，我们计算了所有模型在验证集上所有时间步的平均CSI、POD、HSS和SSIM值。两个不同实验数据集的定量结果总结在表2和表3中，其中每个指标的最佳得分以粗体标出。表2. 江苏数据集上九种不同外推方法的定量评估结果。最佳得分以粗体标出。表3. 中国南方数据集上九种不同外推方法的定量评估结果。最佳得分以粗体标出。在江苏数据集上，所提出的MSF-PhyDRNN在所有强度阈值下始终获得了最高的CSI、POD和HSS得分。值得注意的是，这种优势在更高风速阈值下变得更加明显，表明融合雷达反射率和地面风数据有效地捕捉了严重风速预报的关键特征相关性。此外，MSF-PhyDRNN获得了最高的SSIM得分（表2），表明在结构细节和整体一致性方面表现出色。与最具竞争力的基线MFWPN相比，我们的模型在CSI上提高了9.8%、在POD上提高了18.7%、在HSS上提高了13.5%。定量结果还突显了传统方法的内在局限性。基于Transformer的Earthfarsser针对宏观场景设计，难以处理细粒度的局部特征，导致整体得分最低。基于扩散的Diffcast缺乏明确的物理约束，存在物理不一致性的风险，而受物理约束的PhyDNet对于高度复杂的风动态来说不够充分。像SimVP这样的完全卷积网络由于时空特征提取不足而受到限制。最后，深度堆叠的循环模型（ConvLSTM、PredRNN++和MIM）由于梯度不稳定和长距离依赖性建模不足而表现出性能下降。即使MFWPN在其有效的多尺度特征变形方面表现良好，也未能达到我们提出的架构所实现的准确度。这种架构的稳健性在中国南方数据集上得到了进一步测试，该数据集具有更长的预测范围（24个时间步）。虽然在1.6 m/s和5.5 m/s的较低阈值下，MSF-PhyDRNN的POD性能不尽如人意，但在关键的10.8 m/s阈值下，它明显实现了最佳的CSI、POD和HSS。在这一极端阈值下得分显著高于所有其他模型，表明其在预测雷暴大风速度方面的独特优势。这种优势使得更准确地捕捉高风速区域成为可能，这对于灾害预防和缓解至关重要，并有效地降低了错过强风灾害风险。图7展示了在风速阈值为10.8 m/s时，所提出的MSF-PhyDRNN与其他先进模型在江苏数据集上的CSI、POD和HSS趋势。如性能曲线所示，随着预测范围的延伸，所有模型的预测准确性均显示出一致的下降趋势，这突显了长期严重风速预测的固有挑战。尽管如此，MSF-PhyDRNN与所有基准模型相比表现出显著更好的性能。在POD方面，MSF-PhyDRNN在初始步骤中获得了显著更高的得分，并在整个预测范围内保持了这一优势。图7. 在江苏数据集上，九种测试方法在不同预测时间步中对CSI、POD和HSS的比较评估。（a）10.8 m/s阈值下的CSI曲线。（b）10.8 m/s阈值下的POD曲线。（c）10.8 m/s阈值下的HSS曲线。在基线模型中，ConvLSTM、MIM和Diffcast的性能相当。尽管PredRNN++在初期CSI和HSS上略低于ConvLSTM和MIM，但它后来逐步超过了它们。这种改进可以归因于它结合了时空LSTM单元和梯度高速连接，这缓解了梯度消失问题，并能够更有效地捕捉动态演变模式。尽管MFWPN采用了创新的CNN-Transformer混合架构，但它仅在最初的八个时间步内超越了其他基线。最终，虽然所有基线模型都随着时间的推移而严重退化，但MSF-PhyDRNN表现出异常稳定的预测性能，在预测范围的后期阶段保持了令人满意的结果。为了验证我们的MSF-PhyDRNN模型的关键组件及其精心设计的结构的有效性，我们设计了三种受控的消融实验配置：（1）将针对雷暴大风速度阈值和最大值定制的WMSE损失函数替换为标准MSE损失函数；（2）从架构中移除多源数据融合模块；（3）将核心的SimplePredRNN++循环单元替换为标准ConvLSTM。表4总结了在江苏数据集上评估的2小时预测性能。结果表明，与消融后的变体相比，所提出的MSF-PhyDRNN在CSI（Concentration Index）、POD（Probability of Detection）、HSS（Heterogeneity Score）和SSIM（Structural Similarity Measure）方面表现出最佳性能。值得注意的是，将WMSE损失函数替换为标准MSE损失函数在10.8米/秒的高阈值下导致CSI和POD指标出现了最显著的下降。这验证了WMSE损失函数在预测高阈值雷暴大风时的目标优化效果。通过给强风事件赋予更高的权重，WMSE损失函数使模型能够更精确地关注强风区域，从而减少低风速的干扰，并增强对高风速特征的学习。此外，图8显示，在10.8米/秒的阈值下，没有MSF和没有SimplePredRNN++循环单元的变体在所有评估指标上的表现非常相似，均持续优于没有WMSE的变体。这表明WMSE损失函数在高阈值雷暴大风预测中发挥着不可替代的核心作用，而MSF模块和SimplePredRNN++循环单元则分别通过多源数据融合和先进的时空序列建模进一步提升了模型的整体性能。至关重要的是，完整的MSF-PhyDRNN在所有评估指标上的表现都显著优于所有消融后的变体。这证实了核心组件并非孤立运作，而是通过协同优化相互补充。具体来说，WMSE损失函数确保了对高阈值强风的准确预测，MSF模块增强了多源信息融合，而SimplePredRNN++循环单元提高了长序列建模的稳定性。这三个组件的协同作用最终显著提升了模型的整体预测性能，证明了MSF-PhyDRNN架构的合理性和有效性。表4显示了MSF-PhyDRNN及其变体在江苏数据集上的定量评估结果，最佳分数以粗体标出。图8展示了MSF-PhyDRNN及其变体在江苏数据集上不同预测时间步长的CSI、POD和HSS的消融研究结果。（a）10.8米/秒阈值下的CSI曲线。（b）10.8米/秒阈值下的POD曲线。（c）10.8米/秒阈值下的HSS曲线。

**6. 结论**
本研究提出了MSF-PhyDRNN，这是一种用于雷暴大风的新型时空临近预报模型。为了有效整合天气雷达反射率数据和地面风场观测数据，我们设计了一个多源数据融合模块，通过特征解耦和自适应融合注意力机制来捕捉不同数据源之间的时空关系。此外，我们还开发了一个轻量级的PredRNN++变体，并用它替换了PhyDNet框架中的原始ConvLSTM。这一修改增强了模型捕捉对流系统内在长期依赖性和复杂非线性演变的能力，同时减少了计算冗余。为了解决类别不平衡问题以及准确预测极端风速的迫切需求，我们引入了加权均方误差（WMSE）损失函数。这种形式使得模型优先考虑高风速区域。实验评估表明，MSF-PhyDRNN在保持风速形态、定位精度和强度分布方面表现出色，在预测高阈值风速时具有显著优势。尽管取得了这些进展，但仍存在某些局限性。模型的预测性能本质上受到输入数据质量和分辨率的限制。此外，虽然它在短期预报（0-2小时）方面表现良好，但准确预测该时间窗口之外的对流系统的形成和消散仍然具有挑战性。此外，尽管MSF-PhyDRNN在中国南部和江苏典型的雷暴大风热点区域表现出稳健的性能，但由于高质量雷达和地面风数据集的有限性，其在其他具有不同气候特征的地理区域的实证验证目前受到限制。未来的工作将重点关注整合动态物理约束模块，以增强模型模拟对流系统完整生命周期的能力，并覆盖更长的预报时间范围。此外，我们计划获取多样化的区域数据集，利用迁移学习技术评估和优化模型的跨区域泛化能力。

热点排行