《Computers & Geosciences》:ByteStorm: A multi-step data-driven approach for Tropical Cyclones detection and tracking
编辑推荐:
准确的热带气旋(tropical cyclones, TCs)追踪在天气和气候科学领域代表着一项关键挑战。传统追踪方案主要依赖主观阈值,这可能导致其在应用地理区域上的技能产生偏差,并且由于管理大量变量而通常计算和数据密集。研究人员提出了ByteStorm,一个
准确的热带气旋(tropical cyclones, TCs)追踪在天气和气候科学领域代表着一项关键挑战。传统追踪方案主要依赖主观阈值,这可能导致其在应用地理区域上的技能产生偏差,并且由于管理大量变量而通常计算和数据密集。研究人员提出了ByteStorm,一个高效的数据驱动框架,用于重建TC路径。它利用深度学习网络(deep learning networks)检测TC中心(通过分类和定位),仅使用相对涡度(relative vorticity, 850 mb)和平均海平面气压(mean sea-level pressure, MSLP)。然后,通过BYTE算法将检测到的中心连接成TC路径。ByteStorm与最先进的确定性追踪器在主要的全球TC形成海盆上进行了基准测试。所提出的框架在检测概率(Probability of Detection)和误报率(False Alarm Rate)方面取得了良好的追踪技能,准确再现了季节和年际变率(Seasonal and Inter-Annual Variability),并重建了可靠、平滑且连贯的TC路径。这些结果凸显了将深度学习与计算机视觉相结合以提供稳健、计算高效且技能出色的数据驱动TC追踪替代方案的潜力。
### 论文解读文章
**研究背景与问题**
热带气旋(tropical cyclones, TCs)是全球最具破坏性的自然现象之一,其形成与海洋和大气间的复杂相互作用密切相关。每年全球平均发生约90个TC,气候变化使其强度与破坏性持续增加。准确检测和追踪TC对于天气与气候科学、防灾减灾至关重要。传统TC追踪算法主要分为基于物理(如利用海平面气压极小值)和基于动力学(如涡度场)两类,但它们普遍依赖主观阈值,导致对不同地理区域或TC类别存在系统性偏差,且需要存储和处理大量变量,计算和数据密集,限制了大规模长期研究的开展。为克服这些局限,研究人员探索了机器学习(machine learning, ML)方法,但现有数据驱动工作多聚焦于TC检测或二元分类,缺乏端到端的追踪能力,且部分方法计算效率不高或局限于区域应用。
**研究目标与结论**
基于前期工作的成果,研究人员提出了ByteStorm,一个将两个深度学习(deep learning, DL)模型(用于TC分类和定位)与计算机视觉多目标追踪(Multi-Object Tracking, MOT)算法BYTE相结合的新型框架,用于从网格化环境数据中重建TC路径。ByteStorm仅需两个环境预测因子——850 mb相对涡度(relative vorticity, RV850)和平均海平面气压(mean sea-level pressure, MSLP),大幅降低了数据量和计算成本。在全球主要TC形成海盆(北太平洋东西部、南太平洋、北南印度洋、北大西洋)上,将ByteStorm与四个确定性追踪器(CNRM、UZ、OWZ、TRACK)进行基准测试。结果表明,ByteStorm在检测概率(Probability of Detection, POD)和误报率(False Alarm Rate, FAR)之间取得了良好的平衡,准确再现了季节和年际变率(Inter-Annual Variability, IAV),重建了平滑且连贯的TC路径,且计算效率显著优于传统方法。这些成果凸显了将深度学习与计算机视觉集成作为TC追踪的稳健、高效数据驱动替代方案的潜力。论文发表在《Computers》。
**关键技术方法**
ByteStorm采用两阶段框架。首先,两个独立的VGG(Visual Geometry Group)卷积神经网络分别执行分类和定位任务:分类模型输出每个非重叠40×40像素块(对应约1000 km尺度)内TC出现的概率;若概率≥0.5,则定位模型估算TC中心在该块内的像素坐标。两个模型均以RV850和MSLP作为双通道输入。训练数据来自ERA5再分析数据集(1980–2009年训练,2010–2019年验证),标签来自IBTrACS数据集(1980–2022年),覆盖全球六个TC形成海盆,并通过周期抽样构建独立的测试集(1980–2019年每月一份)。随后,检测到的TC中心通过BYTE算法进行数据关联,该算法保留高置信度与低置信度检测,并利用卡尔曼滤波处理临时漏检,结合物理约束(如最大位移400 km/6小时、持续至少3天)生成时空连贯的TC路径。
**研究结果**
**4.1 与确定性TC追踪器的基准测试**
通过海盆级评估比较ByteStorm与四个确定性追踪器(CNRM、UZ、OWZ、TRACK)的性能。
**4.1.1 检测概率与误报率**
ByteStorm在全球范围内实现了良好的POD-FAR权衡:总体POD仅次于TRACK,FAR与OWZ和UZ相当。在西太平洋(WNP)和南印度洋(SI)表现最佳,POD分别为76.84%和85.8%,FAR分别为5.43%和17.49%。按风暴类别(Saffir-Simpson等级)划分,POD随强度增加而上升,从热带低压的59.78%增至5级飓风的93.55%,表明结构更完整的TC更易被准确检测。
**4.1.2 季节和年际变率**
ByteStorm(红色)在40年测试集上紧密跟随IBTrACS(蓝色)的年际变率曲线,在各海盆中Pearson相关系数均排名第二或最高(如SI海盆达0.91)。在季节分布上,ByteStorm准确再现了各海盆TC发生的季节周期,包括北半球夏季和南半球冬季的峰值,仅在WNP和东太平洋(ENP)的7–9月略有低估。
**4.1.3 路径持续时间**
ByteStorm的路径持续时间分布与IBTrACS观测总体一致,但产生较多短时路径(3–5天),这些主要来自误报(false alarms, FAs)。与TRACK相比,ByteStorm未系统性高估路径长度;与OWZ和CNRM类似,短时FAs较多。
**4.1.4 ByteStorm的漏检与误报路径**
空间分析显示,漏检主要发生在40°纬度以上的WNP和北大西洋(NATL),可能与TC向温带过渡时的结构变化有关。FAs多局限于热带(-30°至30°纬度),环境条件对应弱扰动(最大RV850约2–3×10
-4 s
-1,最小MSLP约1000–1003 hPa),可能为IBTrACS未收录的短时或弱系统。南太平洋(SP)和南印度洋(SI)的FAs最多,且SP海盆中三日路径占比最高。
**4.1.5 路径平滑度**
ByteStorm产生的TC路径平滑度(以连续航向变化的标准差衡量)显著优于其他确定性追踪器,其中位数(22.49)和四分位距(13.74–36.16)更接近IBTrACS参考值(中位数20.42,四分位距7.94–20.42)。BYTE算法通过卡尔曼滤波处理临时漏检,结合DL模型阈值的自适应性,共同实现了平滑连续的轨迹。
**4.2 测试案例:长寿命TC路径**
选取来自不同海盆的五个长寿命TC(如Gafilo、John)进行案例研究。ByteStorm在TC强盛阶段能够紧密匹配IBTrACS观测的路径,准确捕捉低气压中心位置;在TC形成初期或减弱阶段,检测精度略有下降,但整体仍能重建物理上真实的路径。例如,对于Gafilo的γ形轨迹,ByteStorm捕捉到了类似运动模式。
**4.3 在2020-2022年ERA5和JRA-3Q再分析上的外推**
将ByteStorm应用于2020-2022年的ERA5和JRA-3Q数据,检验其外推能力。在ERA5上,POD和FAR与1980-2019年测试集结果一致,表明时间泛化良好。在JRA-3Q上,POD更高(如SP海盆提升约10%),但FAR也相应增加;此现象主要源于JRA-3Q对热带低压和弱风暴的检测更敏感,且产生了大量短时路径。季节分布显示JRA-3Q在SI、SP、NI海盆存在异常高频的TC活动。
**4.4 计算性能**
在3年(2014-2016年)ERA5数据(4384个时间步)上比较ByteStorm与UZ(基于TempestExtremes)。ByteStorm仅需26.4 GB输入数据(UZ的28%),单GPU+单CPU执行时间为146.8秒(UZ单CPU为980.4秒),速度提升约7倍。
**总结讨论**
ByteStorm作为一个完全数据驱动的框架,通过结合两个DL模型与BYTE算法,仅依赖两个环境预测因子即实现了与四个确定性追踪器相当的追踪技能,同时在路径平滑度、计算效率和数据存储方面具有优势。该框架成功再现了全球TC的季节和年际变率,并能准确捕捉强盛阶段TC路径。局限性包括:未同时预测TC强度;产生一定数量的短时误报路径;使用两个独立的CNN增加了训练复杂度,且为每个半球分别训练模型。总体而言,ByteStorm证明了数据驱动TC追踪可以补充传统方法,为全球TC监测提供计算高效、物理一致且稳健的工具,适用于大规模气候诊断、高分辨率再分析评估以及潜在的业务化应用。
**翻译研究结论部分**
研究人员介绍了ByteStorm,这是一个结合基于深度学习(deep learning, DL)的分类和定位模型与BYTE(Zhang et al., 2022)——一种最先进的计算机视觉多目标追踪(Multi-Object Tracking, MOT)算法——的框架,用于从网格化环境数据中重建热带气旋(tropical cyclone, TC)路径。通过将单个TC中心连接成时间连贯的路径,ByteStorm提供了端到端、可扩展的风暴检测和追踪解决方案。与传统确定性追踪器依赖手动调参的阈值不同,ByteStorm遵循完全数据驱动的范式,使得关于TC路径的快速、灵活且低成本的统计研究成为可能,从而显著拓宽了潜在用户基础和应用范围。研究人员强调,本文目的并非比较确定性与数据驱动方法;确定性追踪器仍是气候数据集中TC追踪的成熟工具。相反,ByteStorm被作为新颖的互补性且计算高效的框架提出,其性能可与现有最先进方法相当。它在全球范围内展现出良好的TC路径重建和外推技能,凸显了其稳健性及在几乎无需微调的情况下应用于其他再分析数据集的潜力(见第4.3节)。此外,该框架的计算效率和可扩展性进一步实现了在大规模气候数据集中快速可靠的TC诊断,并为业务化和实时TC追踪监测提供了强大的基于DL的分析工具。展望未来,探索其他DL技术或将物理约束嵌入数据驱动方法,可能提升检测/定位任务性能;发展统一模型以同时预测强度、方向等关键信息也是重要方向。最后,未来工作将优先将其作为诊断工具集成到地球系统模型中,实现气候模拟直接输出的实时TC诊断。