面向放射性核素大气输送的GPU加速拉格朗日粒子扩散模型构建与应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Atmosphere》：Implementation of a GPU-Accelerated Lagrangian Particle Dispersion Model for Atmospheric Transport of Radioactive Nuclides

【字体：大中小】 时间：2026年06月10日 来源：Atmosphere 2.3

编辑推荐：

　　面向核事故应急响应的大规模大气扩散模拟对计算效率与数值可靠性提出了严苛要求。研究人员在FLEXPART框架内开发了一种面向图形处理器（Graphics Processing Unit, GPU）的拉格朗日粒子扩散模型（Lagrangian Particle D

面向核事故应急响应的大规模大气扩散模拟对计算效率与数值可靠性提出了严苛要求。研究人员在FLEXPART框架内开发了一种面向图形处理器（Graphics Processing Unit, GPU）的拉格朗日粒子扩散模型（Lagrangian Particle Dispersion Model, LPDM）以满足上述需求。研究对核心输送过程——包括平流（advection）、湍流扩散（turbulent diffusion）、对流混合（convective mixing）以及干/湿沉降（dry/wet deposition）——进行了面向GPU并行执行的重构。通过引入快速算术运算指令与多级并行化策略，整体计算性能获得显著提升，同时保持了物理精度。此外，研究还开发了基于消息传递接口（Message Passing Interface, MPI）的并行气象数据解耦与预处理工具，有效缓解了数据处理瓶颈。多GPU执行架构及负载均衡策略的引入，使模型能够在异构计算环境中实现高效扩展。研究以欧洲示踪剂实验首次释放试验（European Tracer Experiment-I, ETEX-I）为基准，对GPU程序的精度与加速比进行了严格评估。结果表明：在保持近可比精度（相对误差量级为10^?2）的前提下，该程序在单GPU平台上实现了约40.45倍的整体加速；在气象背景场可复用的高性能应用场景下，加速比可进一步提升至约52.05。多GPU实验表明，该程序在1至4块GPU配置下具有良好的并行扩展性，且所提出的负载均衡策略能够有效提升异构GPU环境下的计算效率。

该论文发表于《Atmosphere》期刊，旨在解决核事故应急响应中大气扩散模拟面临的计算效率瓶颈问题。随着全球能源结构转型与低碳发展目标的推进，核能作为低排放电力来源持续扩张，但伴随的核事故风险 ... 可能影响公众健康与生态安全。数值大气扩散模型是事故后果评估与应急决策支持的核心工具，其计算速度与数值可靠性直接决定响应措施的及时性与准确性。然而，大气扩散过程本质上极为复杂，湍流输送与清除过程无法完全从控制方程直接解析，当代扩散模型依赖简化参数化或经验表征处理这些未解析过程。研究表明，模拟浓度场对干湿沉降参数化、湍流混合及边界层动力学高度敏感；高阶参数化方案虽能减少模拟误差，却显著增加计算成本，导致数值精度与计算效率之间的权衡在核应急条件下尤为突出。此外，切尔诺贝利与福岛事故经验表明，事故期间电力中断导致源项难以准确获取，气象预报产品亦存在显著不确定性，使得源项反演与数据同化等辅助方法需大量扩散模拟支撑，计算负担成为时效性决策的主要瓶颈。研究人员基于国际公认且广泛验证的FLEXPART框架，开发面向GPU的拉格朗日扩散模型，针对平流、湍流随机位移、对流混合及湿沉降等高计算成本物理过程实施细粒度数据并行策略，将核心计算完全迁移至GPU；通过快速算术指令降低基本运算延迟，从并行粒度与资源利用双重视角优化：引入基于CUDA流的粗粒度并行策略以重叠计算与数据访问，同时精确控制线程寄存器数量以减少寄存器溢出、提升线程并发度。针对气象背景场高复用性，研究结构化解耦其读取与计算流程，以MPI并行预处理降低I/O开销。最后，通过多GPU粒子域分解与负载均衡方法实现跨设备可扩展并行。

关键技术方法包括：基于CUDA Fortran的GPU全卸载策略，采用"一个粒子对应一个线程"的细粒度并行映射；利用GPU多功能单元（Multi-Function Units, MFUs）的倒数近似与倒数平方根近似实现快速算术优化，配合Newton-Raphson迭代修正保证精度；基于CUDA流的粗粒度并行以重叠计算与数据传输；通过寄存器使用上限控制优化SM资源占用；MPI并行气象数据预处理程序flex_met_pre实现GRIB格式解码、物理变量推导与坐标转换；基于流式多处理器（Streaming Multiprocessors, SMs）数量的比例划分策略实现异构多GPU负载均衡。验证基于ETEX-I试验，采用NCEP-CFSR再分析资料驱动，以FLEXPART v11.04为参考基准，统计指标包括Fractional Bias（FB）、Root Mean Square Error（RMSE）、Fraction within a Factor of Two（FA2）及Fraction within a Factor of Five（FA5）。

研究结果部分围绕以下小标题展开：

**3.1 精度验证**：通过GPU实现与参考CPU代码模拟的48小时平均浓度场对比，两者空间分布高度一致，GPU实现仅在低浓度羽流边缘产生略高的湍流混合效应；全时段域平均浓度绝对偏差约比当地均值低两个量级。基于完整ETEX-I观测数据集的统计指标显示，GPU与CPU实现的Fractional Bias分别为-0.65与-0.71，RMSE分别为2.85与2.77 ng/m3，FA2均为0.66，FA5均为0.96，表明GPU实现有效复现真实污染物扩散过程并保持数值一致性。

**3.2 计算性能评估**：单GPU加速性能方面，细粒度并行化后平流-扩散模块加速比达38.50，对流混合与湿沉降分别为10.79和12.53；引入快速算术指令后平流-扩散时间从152.3秒降至110.0秒；经CUDA流粗粒度优化与寄存器控制（上限72个）后，总模拟时间从原实现的14920.2秒降至369.1秒，整体加速约40.45倍；气象背景场可复用场景下进一步提升至52.05倍。气象场预处理程序在18线程下实现11.63倍加速，将原占总时间83.7%的比例大幅降低。多GPU扩展性方面，1至4块NVIDIA Tesla V100配置下平流-扩散近线性扩展，对流混合与湿沉降因通信同步开销增长受限。异构GPU负载均衡方面，RTX 5080+RTX 5070组合在未平衡配置下加速约1.37倍，启用负载均衡后提升至约1.56倍，绝对提升19.42个百分点。

**5. 局限性与未来工作**：多GPU实现超过一定设备数量后扩展性饱和，与通信同步开销增加有关，未来拟探索GPUDirect RDMA和NVLink等GPU直连通信技术；GPU加速模拟的能效特性尚未系统评估，未来需对比CPU与GPU平台的能耗及每次模拟能耗特征，以全面评价绿色计算潜力。

**研究结论**：该研究建立了FLEXPART框架内面向GPU的拉格朗日粒子扩散模型，通过协同细粒度并行化与架构适配实现核心输送与沉降过程的全面迁移；算术优化与并发执行策略进一步释放GPU计算能力，配套并行气象预处理工具缓解上游瓶颈，多GPU扩展与异构负载均衡策略展现良好扩展性。ETEX-I验证确认GPU模型与参考模拟保持一致，加速比达40.45-52.05，显著优于既有GPU加速拉格朗日粒子程序。该框架为需要快速周转和重复模拟的计算密集型大气扩散应用——特别是应急响应评估和源项分析——提供了实用且可扩展的解决方案。

联系信箱：

粤ICP备09063491号

热点排行