基于改进的Mask2Former框架的高精度海洋石油泄漏分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Marine Pollution Bulletin》：High-precision segmentation of marine oil spills based on an improved Mask2Former framework

【字体：大中小】 时间：2026年04月10日 来源：Marine Pollution Bulletin 4.9

编辑推荐：

　　海面油污语义分割方法提出多模块改进框架，包括多尺度特征增强、海洋上下文聚合、类别平衡注意力机制、边界优化及自适应上采样模块，有效解决极端类别不平衡、多尺度目标及模糊边界问题，在LADOS数据集上mIoU达74.48%，显著优于传统模型。

王东梅|苏诗然|吴阳|卢静怡|王鹏

中国海南省东北石油大学三一海洋油气研究院

摘要

在海面图像中准确分割石油泄漏对于污染检测、损害评估和应急响应具有至关重要的实际意义。然而，海洋场景带来了诸多挑战，包括严重的背景杂乱、明显的类别不平衡、多尺度目标变化以及不清晰的物体边界，这些因素共同限制了现有分割模型的准确性和鲁棒性。为了解决这些问题，本研究提出了一种基于Mask2Former的增强型语义分割框架，该框架包含五个专用模块。多尺度特征增强（MSFE）模块通过尺度自适应权重和残差尺度增强来加强多尺度目标表示；海洋背景聚合（OCA）模块通过整合方向性条带池化、多尺度上下文金字塔和噪声感知门控机制来丰富掩码特征；类别平衡查询注意力（CBQA）模块通过类别感知的查询重加权来缓解类别不平衡；边界细化模块（BRM）和自适应边界上采样模块（ABU）分别通过残差细化和边界锐化来提升边界区域的掩码预测效果。在LADOS数据集上进行的全面比较和消融实验表明，所提出的方法优于传统的基线模型（如U-Net、FCN和DeepLabv3+），达到了74.48%的mIoU、76.05%的fwIoU、83.56%的mACC和86.38%的pACC。特别是在石油平台和船舶等代表性较低的类别上，观察到了显著的改进。这些结果证实了所提出模块的个体有效性及其互补性。

引言

石油是现代工业文明的基石，为交通运输、制造业和发电提供能源。随着全球海上贸易的扩展，海上石油开采和运输已成为国际能源供应链的重要组成部分（Xu等人，2025年；Yang等人，2022年）。然而，海洋石油泄漏会造成不可逆的生态破坏和巨大的经济损失。诸如1989年的埃克森·瓦尔迪兹号（Peterson等人，2003年）、2002年的西班牙Prestige号（Fingas和Brown，2018年）以及2010年的深水地平线号（Joye，2015年）等重大事件，凸显了海洋石油泄漏对生物多样性、渔业生产力和沿海社区的持续威胁（Leifer等人，2012年）。与图像分类和目标检测不同，语义分割执行的是像素级标记。这种能力为灾害评估和环境监测提供了必要的细粒度信息（Lv等人，2023年）。因此，准确分割海洋石油泄漏对于有效的监测和响应至关重要。

传统的基于船舶和现场的监测方法受到覆盖范围狭窄和响应时间缓慢的限制（Solberg，2012年）。遥感技术现在已成为应对海洋石油泄漏不可或缺的手段。合成孔径雷达（SAR）提供了全天候、大范围的覆盖，支持快速检测、空间划分和油膜跟踪（French-McCay等人，2021年）。早期的监测方法主要依赖于对海面粗糙度和光谱反射异常的手动解释。这些方法通常生成粗糙的二值掩码，并且无法根据物理特性区分不同类型的石油泄漏（Topouzelis，2008年）。尽管传统遥感方法在检测可靠性和操作部署方面有所改进，但它们仍然缺乏对石油泄漏形态和空间范围的精确描述，从而限制了像素级语义分割的实现。

深度学习的迅速发展显著提升了计算机视觉和遥感领域的语义分割能力，使得复杂高分辨率场景的有效分析成为可能。由于强大的特征提取能力，深度学习方法已广泛应用于环境保护和水文学领域（Li等人，2024年）。基于卷积神经网络（CNN）的方法最初主导了该领域，为密集预测任务建立了基础范式。例如，Hasimoto等人（Hasimoto-Beltran等人，2023年）提出了一种基于残差网络（ResNet）和UNet的多通道像素级分割模型（M-DNN），提高了分类准确性。UNet通过轻量级的残差注意力机制（LRA-UNet）得到了增强，该机制结合了深度可分离卷积和简单注意力模块（SimAM）残差编码器，以实现精确的特征提取（Cai等人，2025年）。SpillNet模型针对极化SAR解释和纹理化油膜划分进行了优化（Umaha等人，2025年）。DeepLab系列进一步推动了这一领域的发展。DeepLabV3+中集成了三级注意力机制，以在自监督下有效分割语义丰富的SAR图像（Ovi等人，2023年）。此外，DeepLabV3+与支持向量机结合，开发出了DRSNet，利用SAR图像的极化特征进行海面石油泄漏检测（Wang等人，2023年）。然而，由于CNN的接受域有限以及分层池化的固有局限性，这些模型往往优先考虑主导背景区域，从而抑制了稀有类别的响应，并降低了模糊或碎片化油膜的边界精度。因此，在极端类别不平衡和显著尺度变化的情况下，它们的性能会下降（Al-Ruzouq等人，2020年）。

在CNN建立的像素级分类基础上，基于自注意力的Transformer分割框架得到了越来越多的研究。它们的长距离依赖建模和查询驱动机制能够明确捕捉全局上下文关系，克服了CNN的局部接受域限制。例如，在Swin Transformer中引入了移位窗口以实现分层表示学习（Liu等人，2021年）。在Vision Transformer（ViT）架构中评估了加权融合损失函数，通过最大化mIoU和Dice分数同时最小化熵或类别表示损失来提高CNN性能（Dahal等人，2025年）。此外，海洋石油泄漏分割模型（MOSSM）结合了SE通道注意力，融合了空间和像素注意力，有效减少了SAR图像中噪声和背景的干扰（Liao等人，2025年）。另外，类似Transformer的状态空间模型，如Oil Spill Detection Mamba（OSDMamba）（Chen等人，2025年）也得到了研究；这些模型采用选择性扫描来高效处理长序列和处理不平衡的空间分布。

尽管这些深度学习模型在各种遥感应用中取得了进展，但海洋环境的复杂性极大地限制了它们的性能，使得它们不适合直接应用于海面的石油泄漏分割场景。具体来说，极端类别不平衡导致海水背景占据了大多数像素，而石油平台和船舶等稀有类别仅占极小比例，导致模型偏向于主导类别并抑制了稀有类别（Ma等人，2019年；Yuan等人，2020年）。此外，石油扩散、波浪相互作用和不同的光照条件会导致边界模糊、与海水的渐变过渡以及类别内的外观变化，从而增加了分类难度。此外，油膜具有从薄到厚的显著尺度变化，单尺度特征无法充分捕捉这些变化。复杂的海面干扰（如波浪泡沫、船舶尾流、镜面反射和近岸地形）与油膜非常相似，会产生大量误报。因此，需要进一步的架构创新来实现复杂海面条件下的鲁棒石油泄漏分割。本研究的主要贡献如下：

•

提出了一种多尺度特征增强方法，该方法动态调整不同尺度上的贡献，以提高对不同大小目标的区分能力。

•

引入了一种新的背景聚合方法，以捕捉油膜的方向扩散特性，实现有针对性的建模同时抑制海面背景噪声。

•

设计了一种新的查询分组策略，根据类别频率分配注意力，有效解决查询级别的类别不平衡问题；

•

边界细化和自适应上采样技术利用Sobel算子从掩码特征中提取边缘线索，从而在保持结构清晰度的同时实现对软边界的自适应处理。

在Mask2Former框架（Cheng等人，2022年）的基础上，本研究实现了四个关键改进。首先，MSFE模块增强了不同尺度上的多尺度特征表示，以处理不同规模的石油污染区域。此外，考虑到油膜表现出方向性扩散而非随机分布，且现有方法缺乏物理海洋过程建模，所提出的OCA模块在处理背景干扰的同时考虑了类别内的外观变化。然后，提出的CBQA机制缓解了极端数据不平衡带来的限制，从而提高了模型性能。最后，ABU和BRM模块的结合细化了边界，解决了传统上采样中的模糊问题。这些创新共同确保了类别平衡，提高了边界区域的分割质量，并在复杂的海洋表面条件下增强了鲁棒性。

方法

图1展示了所提出模型的整体架构。它提出了一个基于Mask2Former的分割框架，整合了OCA、MSFE、CBQA、BRM和ABU模块，以实现高精度和鲁棒的海面石油泄漏分割。

实验结果与讨论

为了验证所提出方法的有效性及其与Mask2Former语义分割框架的兼容性，在LADOS数据集上进行了一系列实验（Gkountakos等人，2025年）。

结论

本研究提出了一种基于增强型Mask2Former的语义分割架构，用于复杂海洋环境中的分割和监测。该架构整合了多个互补模块，包括多尺度特征增强、上下文聚合、类别平衡注意力、边界细化和自适应上采样。具体来说，多尺度增强改善了不同尺度上目标的表示；上下文聚合减少了海洋背景的干扰

CRediT作者贡献声明

王东梅：撰写——审稿与编辑、监督、项目管理、调查、正式分析、概念化。苏诗然：撰写——审稿与编辑、初稿撰写、可视化、验证、软件开发、方法论、调查、正式分析、概念化。吴阳：撰写——审稿与编辑、调查、正式分析、数据管理、概念化。卢静怡：撰写——审稿与编辑、监督、项目管理、调查、资金支持

资金来源

本研究得到了国家自然科学基金（62473096）；海南省自然科学基金（623MS071）；黑龙江省自然科学基金（LH2023H001）；中国博士后科学基金（证书编号：2023MD744179）的支持。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

作者衷心感谢卢静怡教授提供的多项研究资助计划，同时感谢王东梅副教授、王鹏博士和吴阳博士在手稿准备、格式化和图表开发方面的宝贵意见和帮助。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法

实验结果与讨论

结论

CRediT作者贡献声明

资金来源

利益冲突声明

致谢

热点排行