STG-ViM：一种用于全球海表温度预测的时空门控视觉模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：STG-ViM: A Spatiotemporal Gated Vision Mamba for Global Sea Surface Temperature Prediction

【字体：大中小】 时间：2026年04月30日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　张振昌|陈海强|何松涛|陈永祥|黄佳梅福建农林大学计算机与信息科学学院，福州，350002，福建，中国 **摘要** 精确的全球海表温度（SST）预测是气候科学中的一个基本挑战。然而，现有的深度学习模型在平衡捕捉复杂的长程时空依赖性与计算效率方面面临困境。新兴的M

　　张振昌|陈海强|何松涛|陈永祥|黄佳梅
福建农林大学计算机与信息科学学院，福州，350002，福建，中国

**摘要**
精确的全球海表温度（SST）预测是气候科学中的一个基本挑战。然而，现有的深度学习模型在平衡捕捉复杂的长程时空依赖性与计算效率方面面临困境。新兴的Mamba架构以其线性复杂性和全球建模能力为这一瓶颈提供了解决方案。在本文中，我们提出了时空门控视觉Mamba（STG-ViM），这是一种专为全球SST预测定制的新框架。利用状态空间对偶性（SSD）原理，STG-ViM实现了具有线性复杂性的全球感受野。其核心是创新的时空门控双SSD（ST-GDSSD）模块，该模块将时空特征学习明确分离为并行分支，以独立捕捉全球空间相关性和长期时间动态。然后，一个自适应融合模块将这些特征整合起来以模拟复杂的相互作用。在两个公共数据集（OISST和Multi Observation Global Ocean 3D Temperature）上进行的广泛实验表明，STG-ViM在月度和日度尺度上都一致性地优于现有的基线模型。结果验证了该模型在准确性、鲁棒性和计算效率方面的优越性，使其成为高分辨率时空预测的可扩展解决方案。

**引言**
海表温度（SST）是地球气候系统中的一个关键变量（Deser, Alexander, Xie, & Phillips, 2010）。从物理角度来看，作为空气-海洋界面的关键组成部分，SST通过调节能量和水分的交换来调节全球大气环流和水文循环的动态（Lau, 1997）。具体而言，赤道太平洋的SST异常是厄尔尼诺-南方涛动（ENSO）现象的主要驱动因素，其影响通过大气遥相关在全球范围内传播，导致反复出现的极端天气事件（Wang, Deser, Yu, DiNezio, & Clement, 2016）。除了其物理影响外，SST在生态和社会经济维度上的影响同样深远。在生态方面，由全球变暖驱动的SST上升会引发大规模珊瑚白化，并威胁海洋生物多样性（Hughes et al., 2018）。在社会经济方面，SST模式决定了海洋初级生产力和渔业资源的地理分布，从而直接影响全球粮食安全。此外，相关的上层海洋热含量与强热带气旋的频率和强度密切相关（Webster, Holland, Curry, & Chang, 2005）。因此，精确模拟SST动态仍然是一个具有重大科学和实际意义的根本挑战。

然而，全球SST预测作为一个复杂的时空建模任务，面临几个严峻的挑战。首先，高分辨率的全球SST数据集构成了大规模、高维的时空序列，给预测模型带来了巨大的计算负担，并要求其具有高效率。其次，全球海洋系统表现出复杂的多尺度和跨区域相互作用，例如太平洋的厄尔尼诺-南方涛动（ENSO）、印度洋偶极子（IOD）和大西洋多年代际振荡（AMO）（Knight, Folland, Scaife, 2006, McPhaden, Zebiak, Glantz, 2006, Saji, Goswami, Vinayachandran, Yamagata, 1999）。因此，一个有效的全球预测框架必须能够捕捉这些非线性动态及其在不同空间和时间尺度上的相关长程遥相关。

传统上，SST预测方法大致分为基于物理的数值模型和数据驱动的方法（Chaudhary, Sharma, & Sajwan, 2023）。基于物理的模型通过复杂的微分方程封装了海洋过程（Thompson, 1976），例如CGCMs、HYCOM和ROMS等先进框架（Chassignet, Hurlburt, Metzger, Smedstad, Cummings, Halliwell, Bleck, Baraille, Wallcraft, Lozano, et al., 2009, Grassl, 2000, Shchepetkin, McWilliams, 2005）。尽管这些模型提供了物理可解释性，但它们通常计算成本高昂，并且容易受到参数化方案固有局限性的系统偏差影响。相反，数据驱动的模型直接从历史观测中识别模式。早期的统计方法，包括马尔可夫模型和典型相关分析（CCA），受到基本线性假设的限制（Landman, Mason, 2001, Xue, Leetmaa, 2000）。为了克服这些限制，引入了传统的机器学习技术，如支持向量回归（SVR）来表征非线性动态（He, Zha, Song, Hao, Du, Liotta, Perra, 2020, Lins, Araujo, das Chagas Moura, Silva, Droguett, 2013, Lins, Moura, Silva, Droguett, Veleda, Araujo, Jacinto, 2010）。然而，这些模型仍然受到劳动密集型手动特征工程、维度灾难以及捕捉复杂高维空间依赖性的持续困难的困扰。

为了克服这些限制，深度学习已成为SST预测的主流范式，这得益于其端到端自动特征提取的强大能力。从架构角度来看，这些模型大致分为两类主要框架：基于循环的和非循环（或无循环）架构。基于循环的模型，以循环神经网络（RNN）及其变体（如长短期记忆（LSTM）为代表，通过时间步长迭代并使用内部状态变量来捕捉时间依赖性。这一核心机制在区域和全球SST预测中显示出显著的效果。在区域预测方面，早期研究证明了标准LSTM模型优于传统方法（Jia, Ji, Han, Liu, Han, Lin, 2022, Sarkar, Janardhan, Roy, 2020, Zhang, Wang, Dong, Zhong, Sun, 2017）。这些基础进展促进了混合模型的发展，旨在增强特定功能，例如整合卷积模块以加强空间表示学习或结合注意力机制以优先处理关键时间信息（Yang, Dong, Sun, Lima, Mu, Wang, 2017, Yu, Shi, Xu, Liu, Miao, Sun, 2020, Zrira, Kamal-Idrissi, Farssi, Khan, 2024）。对于全球尺度预测，重点转向了解决长序列预测和复杂空间关系的挑战。例如，Pan等人将ConvLSTM与注意力机制结合，增强了其时空特征提取能力并显著提高了预测性能（Pan, Jiang, Sun, Xie, Wu, Zhang, Cui, 2024, Shi, Ge, Lin, Xu, Tan, Peng, He, 2024a）。相比之下，非循环（无循环）模型整体处理整个时空序列以直接建模长程依赖性。这一范式最初由卷积神经网络（CNN）主导。例如，Ren等人提出的时空U-Net模型成功应用于渤海和黄海的SST预测，展示了CNN在高效提取局部空间特征方面的优势（Ren et al., 2024）。然而，CNN固有的局部感受野限制了它们捕捉大规模空间相关性的能力。为了克服这一瓶颈，研究人员引入了来自Transformer架构的自注意力机制，该机制能够高效地并行建立全局依赖性（Vaswani et al., 2017）。例如，Bai等人提出的多尺度时空注意力网络通过渐进的尺度扩展范式捕捉不同尺度上的SST变化（Baia et al., 2025），而Song等人设计的时空变量Transformer利用注意力机制来模拟多个变量之间的物理关系和长期依赖性（Song et al., 2024）。

尽管深度学习在SST预测方面取得了显著进展，但现有架构在处理大规模、长序列时空数据时往往受到根本性的权衡。一方面，高分辨率的全球SST数据集构成了大规模、高维的时空序列，给预测模型带来了巨大的计算负担并要求其具有高效率。另一方面，全球海洋系统表现出复杂的多尺度和跨区域相互作用，如太平洋的厄尔尼诺-南方涛动（ENSO）、印度洋偶极子（IOD）和大西洋多年代际振荡（AMO）（Knight, Folland, Scaife, 2006, McPhaden, Zebiak, Glantz, 2006, Saji, Goswami, Vinayachandran, Yamagata, 1999）。因此，一个有效的全球预测框架必须能够捕捉这些非线性动态及其在不同空间和时间尺度上的相关长程遥相关。

传统上，SST预测方法大致分为基于物理的数值模型和数据驱动的方法（Chaudhary, Sharma, & Sajwan, 2023）。基于物理的模型通过复杂的微分方程封装了海洋过程（Thompson, 1976），例如CGCMs、HYCOM和ROMS等先进框架（Chassignet, Hurlburt, Metzger, Smedstad, Cummings, Halliwell, Bleck, Baraille, Wallcraft, Lozano, et al., 2009, Grassl, 2000, Shchepetkin, McWilliams, 2005）。尽管这些模型提供了物理可解释性，但它们通常计算成本高昂，并且容易受到参数化方案固有局限性的系统偏差影响。相反，数据驱动的模型直接从历史观测中识别模式。早期的统计方法，包括马尔可夫模型和典型相关分析（CCA），受到基本线性假设的限制（Landman, Mason, 2001, Xue, Leetmaa, 2000）。为了克服这些限制，引入了传统的机器学习技术，如支持向量回归（SVR）来表征非线性动态（He, Zha, Song, Hao, Du, Liotta, Perra, 2020, Lins, Araujo, das Chagas Moura, Silva, Droguett, 2013, Lins, Moura, Silva, Droguett, Veleda, Araujo, Jacinto, 2010）。然而，这些模型仍然受到劳动密集型手动特征工程、维度灾难以及捕捉复杂高维空间依赖性的持续困难的困扰。

为了克服这些限制，深度学习已成为SST预测的主流范式，这得益于其强大的端到端自动特征提取能力。从架构角度来看，这些模型大致分为两类主要框架：基于循环的和非循环（或无循环）架构。基于循环的模型，以循环神经网络（RNN）及其变体（如长短期记忆（LSTM）为代表，通过时间步长迭代并使用内部状态变量来捕捉时间依赖性。这一核心机制在区域和全球SST预测中显示出显著的效果。在区域预测方面，早期研究证明了标准LSTM模型优于传统方法（Jia, Ji, Han, Liu, Han, Lin, 2022, Sarkar, Janardhan, Roy, 2020, Zhang, Wang, Dong, Zhong, Sun, 2017）。这些基础进展促进了混合模型的发展，旨在增强特定功能，例如整合卷积模块以加强空间表示学习或结合注意力机制以优先处理关键时间信息（Yang, Dong, Sun, Lima, Mu, Wang, 2017, Yu, Shi, Xu, Liu, Miao, Sun, 2020, Zrira, Kamal-Idrissi, Farssi, Khan, 2024）。对于全球尺度预测，重点转向解决长序列预测和复杂空间关系的挑战。例如，Pan等人和Shi等人将ConvLSTM与注意力机制结合，增强了其时空特征提取能力并显著提高了预测性能（Pan, Jiang, Sun, Xie, Wu, Zhang, Cui, 2024, Shi, Ge, Lin, Xu, Tan, Peng, He, 2024a）。

相比之下，非循环（无循环）模型整体处理整个时空序列以直接建模长程依赖性。这一范式最初由卷积神经网络（CNN）主导。例如，Ren等人提出的时空U-Net模型成功应用于渤海和黄海的SST预测，展示了CNN在高效提取局部空间特征方面的优势（Ren et al., 2024）。然而，CNN固有的局部感受野限制了它们捕捉大规模空间相关性的能力。为了克服这一瓶颈，研究人员引入了来自Transformer架构的自注意力机制，该机制能够高效地并行建立全局依赖性（Vaswani et al., 2017）。例如，Bai等人提出的多尺度时空注意力网络通过渐进的尺度扩展范式捕捉不同尺度上的SST变化（Baia et al., 2025），而Song等人设计的时空变量Transformer利用注意力机制来模拟多个变量之间的物理关系和长期依赖性（Song et al., 2024）。

尽管深度学习在SST预测方面取得了显著进展，但现有架构在处理大规模、长序列时空数据时往往受到根本性的权衡。一方面，基于循环的模型的序列性质本质上排除了并行计算，导致显著的训练瓶颈。此外，著名的梯度消失问题限制了它们有效捕捉长程时间依赖性的能力。另一方面，虽然基于Transformer的架构在建模全局依赖性方面表现出色，但其计算和内存需求随序列长度L的平方（O(L2)）而呈指数级增长。这种二次复杂性使得它们在处理高分辨率全球SST数据时计算上难以实现，特别是在需要长期预测范围时。

尽管深度学习显著推进了SST预测，但现有架构在处理大规模、长序列时空数据时仍面临固有的权衡和挑战。一方面，基于循环的模型的固有串行计算机制导致计算效率低下。此外，梯度消失问题限制了它们有效捕捉长程依赖性的能力。另一方面，虽然基于Transformer的非循环模型在建立全局依赖性方面表现出色，但其二次计算和内存复杂性（O(N2)）使得它们在面对高分辨率全球SST数据时应用成本过高。

最近，状态空间模型（SSM），特别是Mamba架构，展示了将全局感受野与线性计算复杂性（O(N)）相结合的显著能力（Dao, & Gu, Fu, Dao, Saab, Thomas, Rudra, & Ré, Gu, Dao, 2024, Gu, Goel, & Ré, Lee, Choi, Kim, 2025, Liu, Zhang, Huang, Xia, Wang, Zhang, 2025, Shi, Dong, Li, & Xu, Zhu, Liao, Zhang, Wang, Liu, Wang, 2024）。在更广泛的时空预测领域，基于SSM的架构在长期时间序列分析和视频预测中取得了有希望的结果，通过高效捕捉复杂依赖性。具体来说，STVMamba将时空状态空间应用于降水预报（Zou, Wen, Huang, He, & Xiao, 2025），而SWRVM结合滑动窗口机制进行长期预测（Peng & Zhong, 2025），VMRNN将视觉Mamba单元与LSTM结合以增强序列建模（Tang, Dong, Tang, Chu, & Liang, 2024）。在海洋学领域，新兴研究开始将基于Mamba的框架适应于SST任务。例如，SVRNN在台湾海峡的区域SST预测中使用了双向SSM（Chen, Chen, & Zhang, 2025a），STDMamba提出了一种基于分解的方法进行精细预测（Jiang et al., 2025），WMSR利用Mamba促进卫星SST超分辨率（Chen et al., 2025b）。然而，尽管取得了这些进展，大多数现有的基于Mamba的海洋模型主要针对局部区域或特定子任务。在能够高效处理全球尺度、高分辨率SST数据的同时，明确解耦全球气候系统中固有的复杂空间遥相关和长期时间演变的统一框架方面仍存在明显不足。

受此潜力的启发，我们提出了时空门控视觉Mamba（STG-ViM），这是一种基于状态空间对偶性（SSD）的新型时空序列预测框架。以SSD作为其核心计算单元，该模型能够将历史信息高效压缩为潜在状态，从而在保持全局感受野的同时实现相对于序列长度N的线性计算复杂性（O(N)）。这一属性有效地缓解了RNN的递归限制和Transformer模型的二次复杂性瓶颈。在架构上，该模型首先使用空间编码器提取输入序列的初始空间表示，然后将其映射到高维特征空间。其次，我们引入了一种新颖的门控双SSD（GDSSD）模块，专门用于通过解耦和提取时空特征来建模复杂的时空相互作用。第三，时空特征融合模块然后自适应地加权并整合这些特征。最后，空间解码器将融合的高维表示重构为未来时间步长的最终SST预测图。本研究的主要贡献总结如下：
1. 我们提出了STG-ViM，这是一种专为全球SST预测定制的新型非循环架构。通过战略性地利用SSD原理的线性复杂性，我们的模型有效解决了捕捉全局感受野与保持计算效率之间的冲突。这克服了传统CNN、RNN和基于Transformer的模型中发现的固有性能-效率瓶颈。
2. 我们设计了一个核心模块——时空门控双SSD（ST-GDSSD），它明确将复杂的时空特征学习分离为平行的空间和时间分支。这种设计使得独立且精确地建模全球空间相关性和长期时间演化成为可能，显著增强了复杂海洋动态的表示。
3. 在两个公共数据集（OISST和MultiObs-3D）上进行的广泛实验表明，STG-ViM在月度和日度尺度上都达到了最先进的性能。该模型一致性地优于各种竞争基线模型，验证了其卓越的准确性、鲁棒性和泛化能力。
4. 我们提供了一个可扩展且高效的海洋环境预测框架。虽然该框架在SST上得到了验证，但它为预测其他耦合海洋变量和支持灾害预警系统提供了坚实的基础。

**部分摘录**
**初步**
本节概述了SSM的核心原理及其向SSD的理论演变，为理解所提出的高效时空建模框架建立了数学基础。

**方法论**
本节详细介绍了STG-ViM的架构设计，说明了它如何利用状态空间对偶性和显式的时空解耦来实现高效、高分辨率的序列建模。

**实验和结果**
本节详细介绍了实验框架，从正式的任务定义和数据集及预处理流程的严格描述开始。然后，我们概述了基线方法和实现配置，接着通过定量指标和时空可视化全面评估了STG-ViM，以证明其在预测准确性和计算效率方面的优越性。

**讨论**
本节对STG-ViM框架进行了系统和多维度的评估。首先，通过全面的消融实验，严格量化了每个核心模块的边际为了进一步评估其操作实用性，在本研究中，我们解决了在高分辨率全球海表温度（SST）预测中平衡长距离依赖性建模与计算效率这一关键挑战。我们提出了STG-ViM，这是一个基于状态空间对偶原理构建的新型时空预测框架。与卷积神经网络（CNNs）、循环神经网络（RNNs）或变换器（Transformers）不同，STG-ViM在保持全局感受野的同时，实现了与序列长度相对线性的计算复杂度。核心创新在于ST-GDSSD模块。

作者声明：
张振昌：概念化、方法论、初稿撰写、审稿与编辑。
陈海强：概念化、方法论、软件、可视化。
何松涛：数据管理、软件。
陈永祥：软件、验证。
黄家梅：调查、验证。

利益冲突声明：
作者声明他们没有已知的竞争性财务利益或个人关系，这些关系可能会影响本文所报告的工作。

联系信箱：

粤ICP备09063491号

热点排行