将Mask-RCNN算法适配用于数字水深模型中水下沙丘的实例分割 Nada Bouferdous, Eric Guilbert 和 Sylvie Daniel

《Geosciences》：Adapting Mask-RCNN for Instance Segmentation of Underwater Dunes in Digital Bathymetric Models Nada Bouferdous, Eric Guilbert and Sylvie Daniel

【字体：大中小】 时间：2026年04月23日 来源：Geosciences 2.1

编辑推荐：

　　摘要多波束声呐的引入标志着水深数据采集的一个转折点，它提供了精确且详细的数字水深模型。这些仪器不仅提升了我们对水下地形动态的理解，还揭示了复杂的沉积结构，如海底沙丘的存在。沙丘在环境保护中起着重要作用，但同时也可能成为安全航行的障碍，需要采取拖曳作业来避开它们。因此，从水深模型

　　摘要多波束声呐的引入标志着水深数据采集的一个转折点，它提供了精确且详细的数字水深模型。这些仪器不仅提升了我们对水下地形动态的理解，还揭示了复杂的沉积结构，如海底沙丘的存在。沙丘在环境保护中起着重要作用，但同时也可能成为安全航行的障碍，需要采取拖曳作业来避开它们。因此，从水深模型中检测出沙丘是非常重要的。尽管关于这些沙丘的信息具有多种应用价值，但它们的识别方法仍然自动化程度较低。本文旨在利用深度学习开发一种用于识别海底沙丘的分割方法。但要克服几个挑战：沙丘是形状不规则、变化极大的复杂物体，而水深数据噪声较大且缺乏详细信息；此外，在河海环境中，目前还没有用于训练的标注数据集。本文从一个小规模的预标注数据集出发，提出了一种系统性的方法来训练Mask R-CNN网络。首先，通过数据增强技术显著扩展数据集并引入有意义的变化。通过使用精心选择的预训练模型进行迁移学习，优化了特征提取，减少了训练时间的同时提高了模型性能。将Mask R-CNN模型适应于海底沙丘分割任务后，检测性能明显提升，像素级别的F1分数达到了89%。平均精确度也超过了50%，证明了该模型在识别和描绘沙丘方面的有效性，即使是在沙丘形状多样和轮廓模糊的情况下也是如此。这些结果证实了我们的方法在复杂河海环境中实现更可靠沙丘分割的相关性。

1. 引言多波束声呐系统的引入标志着水深数据采集的一个转折点，使得能够进行精确的海底测绘和对水下沉积结构（特别是海底沙丘）的详细分析[1,2]。得益于多波束声呐（MBES）提供的高分辨率，我们现在可以更好地理解沙丘在形状、空间组织、规模和动态方面的多样性[3]。然而，这些由水流和沉积物形成的结构在不断演变，可能会通过改变水深和形成浅滩从而对航行构成风险。同时，海底沙丘也是丰富生物多样性的栖息地，为多种海洋物种提供了生存环境。海底沙丘的形成和动态行为对水文和地貌过程有着广泛的影响。实际上，它们可以提供有关局部水流条件的信息[4]。沙丘的迁移是沉积物运输的指示器，这是通过调节河流和海洋环境中的侵蚀与堆积来维持生态平衡的关键过程。尽管关于这些沙丘的信息具有多种应用，但识别和描述它们的方法仍自动化程度较低。这是由于这些结构的形态复杂性和多样性，导致其大小和形状各异[5]。此外，沙丘可能以孤立的形式存在，也可能形成连续的沙丘场，通常具有均匀的波长和直线或略微弯曲的顶峰[6]。而且，由于边界模糊，从水深数据中识别沙丘颇具挑战性。数字水深模型（DBMs）本身也存在一些固有的挑战，使得它们的使用变得复杂。由于需要大量的测量点来精确表示，水深数据通常体积庞大，这在存储、处理和分析方面带来了重大挑战，并需要先进的计算工具和技术。此外，这些数据还受到多种来源的噪声和误差的影响，包括仪器不准确性、自然海底变化以及水下干扰[7]。这些问题增加了水深数据的不确定性，使得海底沙丘的检测和分析更加复杂。面对这些限制，采用更先进的方法来克服传统方法的局限性变得至关重要。已有多项研究探索了从数字水深模型中半自动化识别和描述海底沙丘的方法。参考文献[2]引入了使用从水深数据派生的三角不规则网（TIN）分析沙丘场结构特征的工具。参考文献[3]提出了一种结合区域生长算法的地貌测量方法来检测和绘制沙丘顶峰，从而提高了对水下沙丘结构的理解。后来[8]开发了一种结合镶嵌简化与顶峰线提取的自适应方法，以在不同分辨率下增强沙丘结构的识别。最近，Cassol[5]提出了一种基于基于对象的图像分析（OBIA）方法的海底沙丘分割方法，可以从水深数据中提取和描述沙丘结构。尽管这些方法代表了自动化沙丘检测的重要进展，但它们通常依赖于特定环境的参数和阈值。因此，它们的应用往往需要针对每个新的研究区域进行调整，这限制了它们在不同海洋环境中的通用性。目前，沙丘分割正处于光谱学、地理统计和地貌测量技术的交叉点，这些技术经常被结合使用[9]。光谱方法依赖于频率分解，可以分析沙丘的周期性[10]。空间和地理统计方法则利用高程剖面来描述局部变化[11]。地貌测量技术或基于对象的方法使用分割来识别单个沙丘[12]。组合方法整合了这些方法中的几种，以提供更全面和精确的海底沙丘描述[4]。然而，不同的方法会导致识别出的沙丘存在差异，这取决于所使用的方法和沙丘的定义。它们依赖于预定义的或特定环境的参数和阈值，使得这些方法在不同环境之间的迁移性不强。因此，需要一种灵活且健壮的方法，能够适应各种形态和水动力条件。本项目正是基于这一目标，探索了深度学习在海底沙丘分割中的应用。本研究的主要目标是开发一种基于深度神经网络的自动化方法，以实现精确和高效地识别沙丘，同时考虑其形态复杂性和水深数据的特殊特性。在常见的图像分割方法中，语义分割方法可以将像素分类到不同的类别中，但无法区分个体实例；因此，无法区分沙丘场中的不同沙丘。对象识别方法可以分离不同的沙丘，但会在每个实例周围放置一个边界框而不正确标记它们的边界。实例分割通过检测场景中存在的所有对象来精确定位每个实例，似乎更适合解决海底沙丘的特殊问题。[14]中的Mask R-CNN（[15]的扩展）作为一种有前景的模型，适用于完成海底沙丘分割任务。它的区域提议过程对于需要精确区分不同形状和大小对象的复杂分割任务来说具有优势。该模型已被用于地形分割领域，例如在火星上识别孤立沙丘[16]、雅丹地貌[17]、卡罗莱纳湾[18]和行星坑[19]。然而，将Mask R-CNN应用于海底沙丘分割面临几个主要挑战：首先，缺乏有效的模型训练所需的特定标注数据；其次，将模型适应于具有复杂多样地貌的环境也是一个额外的挑战。作为本项目一部分的研究旨在克服这些问题，提出一种基于Mask R-CNN的海底沙丘分割解决方案。本研究的主要贡献包括：专门调整Mask R-CNN模型以利用预训练模型、DBM增强以及新的边缘一致层，以鼓励模型准确捕捉DBM中的沙丘轮廓；通过广泛实验证明我们的方法在分割不同形状、大小和河海环境下的沙丘方面的有效性。

本文的其余部分分为三个部分。第2节介绍了我们方法所基于的材料和方法，包括使用的数据集、Mask R-CNN模型架构以及我们所做的修改。第3节详细介绍了实验结果，包括性能评估、消融研究和图像尺寸分析。第4节总结了本文并概述了进一步改进从DBM中分割水下沙丘的未来方向。

2. 材料和方法
2.1. 数据
圣劳伦斯河是加拿大最大的河流之一，从五大湖延伸到东海岸，全长约为550公里。研究区域位于Traverse Nord导航通道内，该通道位于河流和河口之间的过渡区，位于魁北克市以北（图1）。该区域的特点是受潮汐、波浪和季节性冰过程驱动的水动力变化很大，这直接影响沉积物运输和沙丘形态。图1显示了记录的DBM区域概览[12]。本研究使用了27个数字水深模型（DBMs）。这些水深数据是由加拿大海道测量局（CHS）和Groupe Océan在进行常规导航通道维护和疏浚作业时，使用多波束声呐（MBES）系统采集的。多波束声呐系统通过垂直于调查船轨迹发射多个声波束来提供密集且高分辨率的海底测量数据。原始声学测量数据经过标准的水文工作流程处理，包括声音速度校正、潮汐校正、异常值过滤和表面生成。处理后的水深数据被插值以生成空间分辨率为1米的规则数字水深模型。所得到的DBMs涵盖了Traverse Nord的几个区域，每个区域的测量时间间隔从几天到几年不等，反映了河口的强烈动态性。所有DBMs都以1米的空间分辨率提供规则的网格化栅格，足以捕捉海底沙丘的形态。在典型的水文调查条件下，基于MBES数据生成的水深模型通常具有分米级的垂直精度，具体取决于调查条件、水深和处理程序。本研究使用的数据集涵盖了导航通道的九个区域（例如G04、G09、G10、G11、G14），其中一些区域在不同时间获得了多个DBMs。由于圣劳伦斯河中的沙丘场变化迅速，每个DBM呈现不同的沙丘配置，包括形状、波长、方向和深度。在整个数据集中，共识别出1190个沙丘。为了获得真实的分割掩膜，Cassol等人[12]开发的面向对象的分割方法被用来划定沙丘边界，该方法在同一研究区域内显示出了92%的真阳性分割精度。这种方法提供了可靠的参考掩膜，代表了单个沙丘的边界和形态特征，使数据集能够覆盖广泛的沙丘形状，包括蜿蜒的孤立沙丘、直线沙丘和相邻的沙丘场。各区域的深度范围大约在13米到23米之间，具体取决于当地的地貌条件。然而，应注意的是，这些注释是基于semi-自动化的对象分割方法得出的，而不是完全独立的手动绘制。因此，可能存在标签偏差，特别是在沙丘与周围海底过渡区域较为平缓的地方。这可能会影响评估指标，因为模型预测是与可能无法完美反映沙丘真实地貌边界的参考掩膜进行比较的。DBMs以GeoTIFF格式存储，每个文件都附有标准的水深元数据，包括采集日期、调查船信息以及CHS的处理说明。这些元数据在数据集准备过程中被保留和使用，以保持一致性。由于CHS对原始水文数据的重新分发有严格限制，因此本研究使用的DBMs不能公开。但是，一旦本文被接受，用于训练模型的分割掩膜、数据划分和代码将根据MDPI数据政策在GitHub上公开。

2.2. Mask R-CNN模型
实例分割通过生成像素级别的掩膜来识别和描绘图像中的每个独立对象，从而使模型能够区分相似对象的不同实例。Mask R-CNN为这类分割任务提供了直接有效的解决方案。在本研究中，我们对其架构进行了调整，以便更好地满足海底沙丘分割的特殊要求。Mask R-CNN的标准架构分为两个主要阶段。首先，网络在特征图中提出了一组可能包含物体的候选区域（图2）。其次，模型预测每个在这些区域内识别的物体的边界框、类别分数和二值掩码。图2. 本研究中使用的改进版Mask R-CNN架构概述。主干网络和区域提议网络（RPN）对应于标准的Mask R-CNN框架。提出的修改包括在ROI生成过程中集成CIoU准则以改进提议匹配，在非最大值抑制（NMS）步骤中使用DIoU来增强边界框过滤，以及在掩码预测分支中添加一个边缘一致性头（Edge Agreement Head）以更好地对齐预测边界与沙丘轮廓。这些改进旨在提高从数字水深模型中定位和分割海底沙丘的能力。在第一阶段，通常使用ResNet架构[20]作为主干网络，从输入图像中提取分层特征。Mask R-CNN的性能在很大程度上取决于主干网络捕捉相关模式的能力；残差连接有助于缓解梯度消失问题，并改进简单和复杂表示的提取。特征提取后，区域提议网络（RPN）[15]识别出潜在的感兴趣区域（RoIs）。对于每个锚点，RPN输出两个预测：一个确定该区域是否包含物体，另一个通过边界框回归来精确定位其位置和大小。这些调整后的锚点形成了用于进一步处理的最终RoIs。由于RPN生成的RoIs大小不一，架构的第二阶段使用了RoIAlign层，以标准化它们的尺寸以便后续分析。与最大池化不同，RoIAlign使用双线性插值来保留空间细节，这对于轮廓细微或不规则的对象（如海底沙丘）尤为重要。一旦标准化，RoIs就被传递到一组全连接层。第一个分支执行对象分类和进一步的边界框细化，而第二个分支预测像素级别的分割掩码。在训练过程中，将掩码预测与真实掩码进行比较，以计算损失值，从而指导模型参数的优化。Mask R-CNN的通用损失函数结合了分类、边界框回归和掩码损失：（1）He等人[14]的工作中详细介绍了该公式，而Girshick[21]则全面描述了其中的组成部分。训练Mask R-CNN通常需要大量标注数据。然而，由于本研究中可用的沙丘掩码数量有限，我们依赖于数据增强策略来扩展数据集的多样性。使用了两种互补的方法：（1）通过增强增加训练样本的多样性，（2）通过迁移学习微调预训练的主干网络。2.3. 使用现有数据的数据增强训练深度学习模型通常需要大型且多样化的数据集。然而，水深数据通常不易获取，专门为海底沙丘分割标注的公开数据集也非常少见。因此，数据增强对于从现有数据中生成额外的训练样本至关重要。通过引入有意义的变异同时保留关键形态特征，这种技术有效地增加了数据集的大小和多样性，并通过模型正则化帮助防止过拟合[22]。在本研究中，对可用的DBM应用了两类变换：几何变换和光度变换。几何变换使模型接触到各种沙丘配置和空间排列。由于海底沙丘在方向、形状和大小上存在差异，这些变换增强了模型的鲁棒性和泛化能力。旋转和水平/垂直翻转用于模拟沿海底不同方向排列的沙丘。此外，平移、裁剪和缩放操作通过放大或移动DBM的特定部分来生成不同的视角，这也使模型能够从部分可见的沙丘和不同规模的沙丘中学习。相比之下，光度变换修改像素值而不改变图像的几何结构。这些操作改变了亮度、清晰度和对比度等视觉属性，使模型能够更好地应对现实世界水深测量中典型的多样化采集条件。为了增强局部对比度并突出沙丘形态，应用了对比度限制自适应直方图均衡（CLAHE）算法[23]。这种方法通过强调局部高程变化来提高细微沙丘特征的可见性。为了进一步模拟水深数据中常见的不完美现象，向DBM中添加了噪声。根据Aslan等人的方法[24]，引入了盐和胡椒噪声和高斯噪声，使模型能够对不同类型的数据退化保持鲁棒性。2.4. 使用迁移学习的数据增强当只有有限的标注训练数据可用时，迁移学习是一种有效的策略。这种方法包括利用在一个大型且多样化的数据集上预训练的模型，并将其学到的表示适应新的但相关的任务。它使模型能够在不需要从零开始进行大量训练的情况下很好地泛化，从而减少了对大型数据集和计算资源的需求[25]。在迁移学习中，通常会重用预训练网络的较低层——这些层负责捕捉一般性和低层次的视觉模式，因为它们的表示往往可以在不同任务之间转移[16]。在实际方法中，Mask R-CNN的主干网络用作主要特征提取器。通常使用残差网络（ResNets）[20]来承担这一角色，因为它们的架构能够有效捕捉分层特征。为了利用迁移学习的优势，我们用在大规模MSCOCO数据集[26]上预训练的权重初始化了主干网络。MSCOCO包含了多种对象和场景，使主干网络能够学习到鲁棒且多样的特征表示。通过在我们的沙丘分割数据集上微调这些预训练的权重，模型受益于之前接触到的复杂模式和结构，最终提高了海底沙丘的分割性能。可以通过堆叠额外的残差块来增加ResNet架构的深度，从而使网络能够学习更复杂的表示。更深的网络（如ResNet-101[3]）可以捕捉更精细的细节和更高层次的结构，但它们需要更大的数据集和更多的计算资源来进行有效训练[27]。为了确定我们应用的最佳主干网络架构，我们比较了ResNet-50和ResNet-101在原始数据集和增强数据集上的性能。这种对比分析使我们能够评估模型复杂性、泛化能力和沙丘分割任务训练效率之间的权衡。图3. ResNet-50和ResNet-101架构的可视化。第二项评估研究了将特征金字塔网络（FPN）与ResNet主干网络结合使用的情况。FPN通过结合网络层次中不同级别的特征，增强了模型在不同尺度上表示物体的能力。这种多尺度能力对于沙丘分割尤为重要，因为沙丘的大小和形状在海底上有显著差异。最后，我们考察了冻结主干网络第一个卷积层的影响。这个实验首先保持早期层的权重不变，然后通过反向传播逐步微调所有卷积层。这一分析有助于确定是保留低层次通用特征还是将其适应水深数据的特定特征更能提高性能。2.5. 使用迁移学习Mask R-CNN的增强在我们的工作中，我们提出调整标准的Mask R-CNN流程，以提高其在水下沙丘实例分割任务中的性能和适应性。这些修改主要集中在两个方面：首先，用高级指标（如距离交并比（DIoU）和完全交并比（CIoU）替代损失函数中的传统交并比（IoU），以改进非最大值抑制（NMS）和边界框回归的准确性；其次，添加一个“边缘一致性头”组件，该组件整合了轮廓检测技术，以精炼预测掩码与实际沙丘轮廓之间的对齐。2.5.1. 完全交并比（CIoU）和距离交并比（DIoU）指标为了提高RPN提出的区域与真实对象之间的匹配质量，我们在训练Mask R-CNN的ROI生成过程中引入了CIoU[28]作为相似性准则。在我们的实现中，CIoU在训练阶段用于改进RPN生成的区域提议与真实边界框之间的匹配，从而改进边界框回归和提议选择。与仅考虑边界框之间的重叠面积的标准IoU指标不同，CIoU还考虑了预测边界框和真实边界框中心之间的欧几里得距离、覆盖两个边界框的最小外接框的对角线长度以及它们之间的宽高比差异。CIoU的定义如下：（2）其中[公式]衡量了预测边界框和真实边界框之间的纵横比一致性，并定义为：（3）这里，[变量]表示边界框的宽度，[变量]表示高度，[变量]是一个权重参数，用于平衡[公式]中的重叠度量IoU。这一标准的整合通过为定位较差的区域提议（包括那些重叠度高的提议）分配更具区分性的相似性分数，从而增强了学习过程的监督，提高了网络向更准确预测的收敛性。一旦网络预测了一组候选边界框及其置信度分数，就会应用过滤步骤，仅保留最相关的检测结果。这一步骤称为非最大值抑制（NMS），旨在消除与评分较高的边界框有显著重叠的冗余预测。在原始版本的Mask R-CNN中，这种过滤依赖于标准的交并比（IoU）准则。在我们的改进中，我们用DIoU[28]替换了IoU。与训练期间使用的CIoU不同，DIoU在非最大值抑制（NMS）步骤的推理阶段应用，以改进重叠检测的过滤。与标准IoU不同，DIoU在计算相似性时还考虑了边界框中心之间的距离。这使得即使在大面积重叠的情况下，也能惩罚那些中心远离真实值的预测。这一额外的几何约束使网络能够直接最小化空间错位，从而在沙丘紧密排列成连续沙丘场的场景中实现更准确的对象定位。DIoU的定义如下：（4）其中[变量]表示边界框中心的欧几里得距离，[变量]表示覆盖两个边界框的最小外接框的对角线长度。在非最大值抑制（NMS）步骤中，根据置信度分数对所有检测到的边界框进行排名。得分最高的边界框被选为每次迭代的最佳检测结果：（5）其中[变量]定义了抑制级别。下图4展示了DIoU的原理。图中显示了[变量]和[变量]中心之间的距离以及它们外接框的对角线[变量]。通过直接最小化[变量]，DIoU确保了抑制过程中的更好空间对齐。图4. 用于NMS的距离交并比（DIoU）准则示意图。2.5.2. 边缘一致性头RPN选出的RoIs随后会经过一个称为RoIAlign的对齐过程，该过程从相应于提议RoIs的特征图中提取特征向量，并将它们转换为固定大小的张量以进行进一步处理。在这个阶段，网络可以从每个特征图中为每个RoI提取额外的特征。然后，该特征图由两个并行分支处理：对象检测分支和掩码生成分支。掩码生成分支负责预测每个检测到的实例的相应掩码，表示图像中物体的精确分割。这种预测是通过组合转置卷积层和卷积层实现的。为了使预测的掩码轮廓与图像中的实际物体轮廓更加对齐，增强了它们之间的对应关系，我们在掩码生成分支中添加了一个称为边缘一致性头（Edge Agreement Head）的组件[28]。通过这样做，我们旨在改进掩码分割的学习，特别是对于像沙丘这样的复杂结构。边缘一致性头使用Sobel滤波器（一种用于边缘检测的二维滤波器）来提取沙丘的轮廓。图像中的边缘是通过滤波器在方向上的强绝对响应来识别的。索贝尔滤波器基于以下两个组成部分：(6)其中是水平梯度，是垂直梯度。这两个组成部分的连接产生了一个维度为的张量，用于提取沙丘的轮廓。在实际应用中，从预测掩模和真实掩模中提取的边缘图会进行比较，以计算额外的基于边缘的损失。索贝尔算子被应用于这两个掩模，以生成与预测掩模相同空间分辨率的相应边缘表示。然后使用像素级的L2损失来衡量预测边缘图和参考边缘图之间的差异，这鼓励网络更好地对齐预测掩模边界与真实的沙丘轮廓。这种基于边缘的损失在掩模预测分支中应用，并在训练期间与标准的Mask R-CNN损失结合使用。

2.6 适应数据和实验配置
神经网络的正确运行在很大程度上取决于用于训练的数据的数量和多样性。为了确保最佳训练效果，数据集被分为三个不同的部分：训练集、验证集和测试集。学习在训练集上进行，使模型能够掌握数据的主要特征。验证集用于微调超参数并防止过拟合，而测试集用于评估模型在以前未见数据上的表现。为了在数据量有限的情况下最大化训练效率，数据集的80%被分配给训练，剩余的20%平均分配给验证和测试。数据集的分割是在可用样本中随机进行的，以创建训练、验证和测试子集。在数据集分割或模型初始化过程中没有使用固定的随机种子。因此，本研究中报告的结果对应于使用这种配置进行的380个时代的单次训练运行。这可能会在结果中引入一些变异性，因为不同的随机初始化或数据集分割可能会导致略有不同的性能结果。然而，报告的结果被认为代表了在所提出的配置下模型的整体行为。

在本研究中，使用了开源机器学习框架TensorFlow 2.14结合Python 3.10来设计和实现算法网络。为了确保与最新库的兼容性并优化模型性能，对使用的依赖版本进行了几项调整（访问于2026年2月21日：“https://github.com/BouferdousNada/Dunes”）。这些修改使得程序能够在加拿大数字研究联盟（alliancecan.ca）的高性能计算基础设施上执行的虚拟环境中运行。

改进的Mask R-CNN模型在512 × 512像素的图像上进行了训练，使用MSCOCO的预训练权重，仅对头部层进行了微调。参数优化使用随机梯度下降（SGD）算法进行，动量为0.9。选择了0.001的学习率，以及20张图像的批量大小，总共进行了380个训练时代。

所有实验都在加拿大数字研究联盟的Cedar高性能计算集群上进行，使用了NVIDIA Tesla P100 GPU（12 GB）、16个CPU核心和64 GB的RAM。环境配置为CUDA 11.7、cuDNN 8.9和TensorFlow 2.14。完整的380个时代的实验总训练时间大约为7.4天。

2.7 性能评估
为了评估所提出的沙丘实例分割方法的有效性，使用了四个指标：精确度、召回率、F1分数和分割平均精度（mAP50）。前三个指标评估沙丘的检测情况，而分割精度（mAP50）衡量沙丘分割结果的质量[29]。这些指标使用公式（7）–（10）计算得出。这四个参数的较高值表示更好的分割性能。

3 结果和讨论
本节描述并讨论了从旨在评估改进的Mask R-CNN模型性能的实验中获得的结果。由于所提出的方法对海底沙丘进行实例分割，因此所有评估指标都是在实例级别计算的。因此，如mAP50、精确度、召回率和F1分数等指标评估了模型正确检测和划分单个沙丘实例的能力。

3.1 数据增强的影响
通过应用所提出的数据增强技术，我们的数据集从27个扩展到了494个水深数字模型。最初，这些数据包含1192个沙丘。通过应用的增强，我们能够生成超过19,200个具有不同特征的沙丘。为了评估这种增强对模型性能的影响，我们在原始数据和增强数据上使用ResNet-50骨干训练了我们的改进Mask R-CNN模型。图5展示了在这两种条件下训练和验证损失的演变。如图5所示，在训练阶段，使用数据增强的模型比不使用增强的模型损失减小得更慢。这表明学习过程更加渐进。这种差异是由于增强数据引入的变异性，迫使模型学习更复杂和多样的特征，而不仅仅是记忆原始数据集中的模式。尽管增强模型的训练损失仍然较高，但这反映了更规律的学习过程，降低了过拟合的风险。在验证集上，趋势则相反：不使用增强的模型最初下降得更快，但它更早达到平台期，其曲线变平。这通常是过拟合的迹象，模型在训练数据上表现良好，但在泛化方面表现不佳。相比之下，使用增强的模型在验证损失上的减少更为稳定和一致，最终实现了较低的最终验证损失，反映了更好的泛化能力。

总体而言，我们得出结论，虽然应用的数据增强策略最初会减慢训练速度，但它导致了更稳定的学习过程，降低了过拟合的风险，并显著提高了模型对未见和复杂沙丘配置的泛化能力。这些改进对于在操作性或异构的河流-海洋环境中实现可靠的分割至关重要。

3.2 骨干配置的影响
测试了不同的骨干架构，以评估骨干深度、FPN的使用以及训练层的选择（从第3层开始）的影响。在这种配置中，第1层和第2层（图3中的前两个块）被冻结，而第3层、第4层和第5层在新数据上进行了微调。评估基于不同的骨干架构。表1展示了模型在测试数据集上的性能。

通过将骨干深度从ResNet50增加到ResNet101，mAP50从11%增加到18%，相对提高了63.6%。这表明ResNet101比ResNet50更有效地捕捉了沙丘的复杂特征。将FPN集成到ResNet101中导致mAP50显著增加，从18%增加到45%，提高了2.5倍。这一改进突显了FPN的显著影响，并强调了多尺度特征表示对于更好对象检测的重要性。此外，通过冻结早期层并仅微调第3层、第4层和第5层，mAP50略微增加，从45%增加到47%，相对提高了4.4%。这种策略有助于防止预训练的较低层过拟合，并鼓励较高层更好地适应新数据。每种架构增强都带来了可测量的性能提升，其中FPN的加入效果最显著。表现最好的配置，即ResNet101 + FPN + 从第3层开始的微调，在河流-海洋沙丘数据上实现了最高的分割性能。

3.3 消融研究
为了评估Mask R-CNN模型改进的贡献，我们通过比较基线模型与改进版本的性能进行了消融研究。通过激活或禁用基线Mask R-CNN模型（基于ResNet101骨干且从第三阶段训练的）上的FPN、CIoU/DIoU和Edge Agreement Head模块，测试了五种模型配置（M1至M5）。这种比较基于第2.7节中介绍的关键指标。表2显示了根据不同骨干架构的模型性能。

表1. 不同骨干配置对实例分割性能（mAP50）的影响。通过将骨干深度从ResNet50增加到ResNet101，mAP50从11%增加到18%，相对提高了63.6%。这表明ResNet101比ResNet50更有效地捕捉了沙丘的复杂特征。将FPN集成到ResNet101中导致mAP50显著增加，从18%增加到45%，提高了2.5倍。这一改进凸显了FPN的重要性，并强调了多尺度特征表示对于更好对象检测的重要性。此外，通过冻结早期层并仅微调第3层、第4层和第5层，mAP50略微从45%增加到47%，相对提高了4.4%。这种策略有助于防止预训练的较低层过拟合，并鼓励较高层更好地适应新数据。每种架构增强都带来了可测量的性能提升，其中FPN的加入效果最为显著。表现最好的配置，即ResNet101 + FPN + 从第3层开始的微调，在河流-海洋沙丘数据上实现了最高的分割性能。

3.3 演变研究
为了评估Mask R-CNN模型改进的贡献，我们通过比较基线模型与我们的改进版本的性能进行了消融研究。测试了五种模型配置（M1至M5），通过激活或禁用FPN、CIoU/DIoU和Edge Agreement Head模块。这种比较基于第2.7节中介绍的关键指标。

表2. 根据启用的组件（FPN、CIoU–DIoU和Edge Agreement Head）评估的模型性能。勾号（?）表示相应组件在模型配置中已被启用，而虚线（--）表示该组件未被使用。每个指标的最佳值以粗体显示。所有指标都在测试数据集上进行了评估。M5模型仅基于基本的Mask-RCNN架构，没有任何添加或修改（无FPN、无CIoU/DIoU、无Edge Agreement Head），作为起点。它仅实现了17.4%的F1分数、18.4%的精确度和10.8%的mAP50。这些非常低的性能反映了基础模型无法准确分割水下沙丘的能力，因为这些沙丘形状不规则、大小多变且边缘常常模糊。

在模型M4中集成FPN模块后，性能显著提高，F1分数提高到53.4%，精确度提高到54.4%，召回率提高到53.0%，mAP50提高到46.1%。这一改进突显了多尺度特征提取在检测不规则形状和大小不同的对象（如海底分布不均匀的沙丘）时的重要性。然而，仅此模块不足以实现最佳性能。在模型M3中加入Edge Agreement Head（不使用CIoU/DIoU）后，实现了最高的整体F1分数（57.5%）、高精确度（60.1%）和召回率（55.7%），以及mAP50（46.4%）。该模块有助于提高检测轮廓的质量，特别是对于边界模糊或不清晰的沙丘。同时，模型M2结合了FPN和CIoU/DIoU（不使用Edge Head），实现了最佳召回率（58.3%）和明显的mAP50（47.0%）改进。这些结果表明，优化定位功能可以提高对象的空间覆盖范围，尤其是在密集和复杂的沙丘场中。CIoU和DIoU功能有助于细化预测框的几何规整性，从而提高检测结果与实际对象之间的对齐。最终改进的模型M1集成了所有模块，实现了最佳的整体性能，精确度为64.2%，F1分数为57.3%，mAP50为47.4%。这种完整配置表明，结合多尺度提取、精确定位和轮廓细化的架构最适合解决水下沙丘分割的特定挑战。

从获得的结果来看，每个添加到Mask R-CNN模型的组件都在应对水下沙丘分割的独特挑战中发挥了特定和互补的作用。FPN模块对于捕捉形态多样性和大小多样性至关重要，这是异构海洋环境的特征。CIoU回归功能的引入有助于更好地区分定位不佳的提案，引导网络进行更精确的空间预测。DIoU通过添加中心之间的距离约束，增强了检测的空间对齐，特别是在密集和连续的沙丘场中特别有益。最后，Edge Agreement Head显著提高了分割轮廓的质量，增强了边界模糊或缺乏对比度情况下的边缘精度。这些模块的结合使模型能够有效地适应水下环境的复杂性，优化了定位、分割和系统的整体鲁棒性。

3.4 图像大小的影响
除了消融研究之外，我们还评估了输入图像大小对我们改进模型的最佳性能版本的影响。在前一节中，模型使用512 × 512图像进行了训练。我们测试了两种尺寸：256 × 256和1024 × 1024。图6显示了三种输入图像尺寸（256 × 256、512 × 512和1024 × 1024）在训练（左）和验证（右）期间损失函数的演变。在两个图表中，我们观察到使用256 × 256图像训练的模型（绿色曲线）在早期表现出快速下降，随后是一个长平台期，表明进展有限。512 × 512和1024 × 1024的模型（分别为橙色和蓝色曲线）显示出更平稳且持续的损失下降，其中1024 × 1024配置达到了最低的最终值。图6显示了训练过程中不同图像大小下损失函数的演变。这些曲线表明，较大的输入尺寸可以实现更稳定和有效的学习，而较小的图像则往往导致早期停顿，并且模型进一步改进的能力降低。

为了评估训练图像大小对沙丘实例分割模型性能的影响，我们使用了在像素级别计算的全局指标（精确度、召回率和F1分数）。这种方法允许对分割质量进行总体评估，而无需显式的实例匹配。它突出了模型根据图像大小学习沙丘形态特征的能力，从而也体现了测深数据的空间分辨率。表3展示了每种训练图像大小配置所获得的指标。表3显示了图像大小对模型性能的影响（每个指标的最佳性能值以粗体显示）。精确度从256 × 256图像的0.37上升到512 × 512图像的0.47，再到1024 × 1024图像的0.51，分别增加了27%和8.5%。召回率也有小幅提高（从0.86增加到0.88），表明模型减少误报的能力有所提升。更为显著的是，召回率从0.85稳定上升到0.90，表明较大的图像尺寸有助于模型捕捉到更多的真实沙丘实例。F1分数同时平衡了这两个指标，也从0.87上升到0.89。总体而言，这些结果证实了较大的输入尺寸有助于实现更准确和可靠的分割，特别是通过提高模型检测和描绘海底沙丘的精度。这个实验表明，输入图像大小对模型性能有明显影响。使用更大的输入可以提高训练动态和最终的分割质量。1024 × 1024配置在泛化能力和准确对象检测方面提供了最好的结果，如最低的验证损失以及最高的召回率和精确度所示。然而，这种配置也需要更多的计算资源，在单个NVIDIA Tesla P100 GPU上，总训练时间从512 × 512图像的约7.4天增加到1024 × 1024图像的12.99天，这突显了性能提升与计算成本之间的权衡。

3.5. 圣劳伦斯河北部沙丘的分割

预测的分割结果与使用Cassol等人（2021年）提出的基于对象的分割方法生成的参考沙丘轮廓进行了比较，并通过手动验证确保了其可靠性。模型的性能是在测试集上使用先前介绍的定量指标来评估的。然而，除了整体分数之外，还需要对预测结果进行定性分析以评估分割的视觉准确性。图6展示了我们最终模型在小型和大型沙丘上生成的预测示例。每个实例都与两个指标相关联：概率分数，反映了模型的信心；以及IoU（交并比），用于量化预测掩码与真实轮廓之间的重叠程度。该图突出了两种类型的配置：(a) 孤立的沙丘；(b) 密集堆积的沙丘场。在这两种情况下，沙丘的位置都被正确识别出来，置信度分数通常超过0.95。这证明了模型在检测沙丘结构方面的稳健性，无论是分散的还是聚集的。

然而，可以观察到预测轮廓（红色）与真实注释（绿色）之间存在一些差异。这些差异主要位于侧边界处，自动分割可能会略微偏离注释。部分差异可以归因于可用注释的局限性，这些注释是基于地貌测量标准使用面向对象的分割方法生成的。虽然这种方法在识别沙丘顶部方面有效，但它经常产生不适用于表示模糊或扩散边界的 abrupt 过渡。因此，模型学习的掩码并不总是能够精确捕捉沙丘与周围海底之间的实际过渡，这可能导致预测过程中的不一致性。实际上，我们的方法呈现了更平滑的轮廓，避免了这些 abrupt 过渡。尽管这对指标有负面影响，但它提供了更现实的结果。除了这些边界差异外，模型在某些情况下还存在实例分离的局限性，尤其是在密集堆积的配置中。在这种情况下，几个相邻的沙丘可能会合并成一个实例，或者相反，一个沙丘可能会被分割成多个部分。这种错误直接影响实例分割的质量，进而影响mAP等全局指标，这些指标同时考虑了对象定位和实例分离。

尽管偶尔存在偏差，模型仍表现出很强的能力来准确区分单个沙丘，即使是在结构紧密相邻或重叠的复杂配置中也是如此。这种检测和实例分离的一致性证实了实例分割在河口海洋环境中的重要性，在这些环境中，沙丘形状可能是不规则的，边界也不清晰（图7）。图7展示了所提出模型在测试数据集图像上生成的实例分割预测示例。预测的沙丘掩码以红色显示，而参考掩码（真实轮廓）以绿色显示。每个检测到的沙丘都标记有两个指标：预测概率分数，代表模型对检测到的实例的信心；以及IoU（交并比）值，用于测量预测掩码与真实注释之间的重叠程度。图展示了两种配置：(a) 较小的孤立沙丘；(b) 形成连续沙丘场的较大沙丘。除了分割性能本身外，所提出的实例级框架还提供了对海底沙丘系统进行地貌分析的新机会。通过明确界定单个沙丘，该方法提供了可以提取多种地貌参数的空间实体，包括顶部方向、波长、顶部长度和沙丘间距。这些描述符在地貌学中常用于解释河流和河口环境中的沉积物传输路径和水动力条件。此外，由于研究区域有在不同日期获得的多次测深调查数据，所提出的分割方法可以支持对沙丘移动性的短期到中期时间尺度的监测。通过比较连续数字测深模型派生的分割沙丘，可以估算迁移率并分析沙丘形态的时间变化。这种形态动力分析通常用于研究海底地形对环境 forcing 的响应（例如[5,30]）。在这种情况下，实例分割为传统的地貌测量方法提供了有用的补充，使得从高分辨率测深数据中进行的大规模海底沙丘动态监测变得更加自动化和可扩展。

4. 结论

在这项研究中，我们探索了深度学习对海底沙丘分割的贡献，重点是对Mask R-CNN模型的调整。鉴于沙丘复杂形态以及与测深数据相关的限制，我们提出了一些改进措施来应对划分沙丘的难度和训练数据的缺乏。我们应用了数据增强技术来补偿注释数据集的不足。通过使用几何和光度变换，我们增加了数据集的多样性，从而增强了模型的泛化能力。此外，我们通过利用预训练的ResNet骨干网络和内置的FPN结合来进行迁移学习，优化了特征提取并减少了训练时间。除了这些优化之外，我们还对Mask R-CNN架构进行了两项关键修改：引入了高级分数指标（DIoU和CIoU）来细化和提高对象定位的准确性，并增加了边缘一致性头，以更好地将预测掩码与沙丘的实际形状对齐。我们的结果表明，更深层次的架构（如ResNet101）提高了模型捕捉沙丘复杂结构的能力。特征金字塔网络（FPN）的集成进一步增强了多尺度特征学习，使得能够更好地检测到各种大小的沙丘。在微调上层的同时冻结骨干网络的前层，使得模型能够更好地适应我们的数据集，从而显著提高了分割性能。通过一系列广泛的实验，我们的方法被证明在河口海洋环境中进行沙丘分割是有效的。这些结果突显了实例分割作为分析海底沙丘的强大工具的潜力，并为处理测深数据的更自动化、准确和可扩展方法铺平了道路。开发的方法有效地检测到了沙丘的存在和位置。然而，划分它们的轮廓仍然是一个挑战。用于模型训练的注释虽然基于地貌测量方法和基于对象的分割，但在沙丘低洼处存在一定的不准确性。为了解决这一限制，未来的工作将集中在通过生成更精确和一致的轮廓来提高注释质量。此外，还将探索自监督和半监督学习方法，利用未标记的数据来扩展训练数据集。这将支持评估模型在不同地理区域的泛化能力，并促进其在更大规模上的应用。

热点排行