基于自监督条件随机场变换器的复杂环境隧道掌子面提取方法

《International Journal of Digital Earth》：Self-supervised CRF transformers for tunnel face extraction in complex environments

【字体：大中小】 时间：2026年05月28日 来源：International Journal of Digital Earth 4.9

编辑推荐：

　　隧道开挖环境因光照不均、岩石纹理多样以及人员、机械和碎屑造成的频繁遮挡，给图像分割带来了重大挑战。这些因素常导致分割不准确。此外，恶劣的工作条件限制了高质量标注数据的采集，且现有数据大多不可靠或数量不足，从而降低了监督学习方法的有效性。为解决这些挑战，研究人员

隧道开挖环境因光照不均、岩石纹理多样以及人员、机械和碎屑造成的频繁遮挡，给图像分割带来了重大挑战。这些因素常导致分割不准确。此外，恶劣的工作条件限制了高质量标注数据的采集，且现有数据大多不可靠或数量不足，从而降低了监督学习方法的有效性。为解决这些挑战，研究人员提出了一种利用自监督学习（Self-supervised Learning, SSL）和条件随机场（Conditional Random Field, CRF）变换器的稳健隧道掌子面提取方法。所提方法将Swin Transformer架构与自监督预训练相结合，以缓解有限标注数据带来的约束。此外，引入CRF模块以增强分割的连续性和细节识别能力。实验结果表明，自监督预训练显著提升了分割精度，在仅使用10%标注数据的情况下，达到了89.38%的平均交并比（mean Intersection over Union, mIoU）、94.45%的精确率（Precision）和94.39%的F1分数（F1-Score）。尽管CRF模块引入的指标提升幅度适中，但它通过减少分割碎片化并增强细节精度，显著提升了视觉分割质量。

在隧道开挖过程中，持续监测掌子面地质信息能够准确评估围岩状况。随着计算机视觉技术的飞速发展，基于图像的隧道掌子面信息识别已成为工程与建筑领域的一种有前景的方法。通过分析隧道掌子面图像，研究人员可以有效识别岩石结构、地下水涌入、岩性特征等关键特征，从而支持围岩分类与安全评估。因此，从图像中分割出隧道掌子面区域是后续解释上述特征的关键且基础的一步。准确提取隧道掌子面区域能够确保高质量、情境相关的数据输入，为可靠的地质特征识别和结构安全分析提供支持。

尽管U-Net、SegNet和DeepLab等图像分割算法在自然图像中应用广泛，也可应用于隧道掌子面图像。然而，复杂隧道掌子面图像所需的大量标注使得这些算法难以在实践中广泛应用。此外，待提取的隧道掌子面区域是后续分析的重要基础，因此不仅要区分掌子面与周围区域，还需通过排除过度遮挡区域确保其适用于进一步分析。尽管一些开创性工作在此方面取得了显著进展，但要实现复杂环境下的实际解决方案，必须解决以下挑战：1) 复杂隧道环境导致的分割碎片化：现有像素级分割算法常忽略一个基本且直观的先验知识，即开挖面在图像中的连续性。周围衬砌、拱架、支护和地面区域等常被错误识别为掌子面的一部分。当机械或碎屑等障碍物遮挡部分掌子面时，会导致分割结果碎片化或不准确。这些孤立区域虽技术上属于掌子面，但因其尺寸小、不连续且缺乏整体性，难以准确标注，且不适合纳入提取的掌子面以进行后续分析。若将错误分类的背景元素纳入后续特征识别算法，会引入显著干扰，导致对岩石结构、渗水区域或潜在薄弱点的识别出现不一致。此类错误最终将损害结构评估和安全评估的可靠性。2) 隧道环境中人工标注成本过高：在实际工程应用中，施工单位会拍摄大量开挖面图像用于归档和备份。这些图像在不同条件和时间下拍摄，常包含岩渣、设备或人员等障碍物，并呈现钢拱架、支护和台阶等结构。为确保分割算法的泛化性，需要大量多样的样本集进行训练。然而，精细标注这些图像耗时费力，加之施工团队人力有限、工期紧张，这一劳动密集型过程阻碍了此类算法的广泛采用。更具挑战性的是，同一隧道的图像常在不同视角和光照条件下拍摄，适应这些变化会显著增加标注成本。

针对复杂隧道环境中有限标注数据和输出碎片化的挑战，研究人员提出TF-CRF（Tunnel Face extraction with CRF Transformers），这是一种利用无标签图像自监督学习的新型鲁棒分割框架。该方法专注于先进深度学习技术的战略应用与整合，以实现针对特定工程任务的实用且数据高效的解决方案。这种整合方法显著增强了隧道掌子面区域分割算法在实际工程环境中的适用性和准确性。

总体而言，本文的关键贡献在于：提出首个用于稳健隧道开挖掌子面区域提取的框架，该框架整合了SimMIM自监督预训练与CRF增强的变换器架构，有效解决了数据稀缺的关键问题。通过整合的CRF模块有效利用连续性约束，解决了输出碎片化的实际工程挑战，产生更可靠、连续且视觉精确的提取结果。实验证明，该组合策略相较于纯监督方法显著提升了分割精度，在仅使用10%完整标注数据集时达到了较高水平，验证了方法的实用性。论文主体部分结构如下：第2节回顾掌子面图像识别和图像分割的相关工作；第3节详细阐述本文提出的掌子面分割方法；第4节介绍实验并分析结果；第5节给出本研究的结论。

研究人员回顾了隧道掌子面识别的相关工作。随着计算机视觉技术的进步，利用图像深度学习模型识别隧道掌子面图像关键特征的研究日益增多。与传统像素级特征提取方法相比，深度学习算法在自动特征提取方面表现出更优越的性能。现有工作大量集中于特定地质和结构特征的识别，基于卷积神经网络（Convolutional Neural Networks, CNN）的模型被广泛应用于岩石类型和结构分类、裂隙与节理等特征的分割任务。例如，CNN已被用于掌子面涌水的分类和严重程度评估。此外，实例分割模型等专用像素级技术已被用于TBM隧道掘进中岩石碎片的高精度识别与形态学测量。近年来，基于变换器的算法因其捕捉长程依赖关系和全局上下文的能力而备受关注，使其特别适用于复杂的掌子面分析，包括岩石风化程度和渗水区域的识别。尽管这些模型性能强劲，但大多仍严重依赖大量标注数据，而标注这些数据既昂贵又耗时。虽然现有的分割工作聚焦于特定元素（如涌水、渗水或岩石碎片），但本研究专注于从复杂、数据稀缺环境中稳健地提取整个掌子面区域这一基础性任务，这要求采用独特策略来处理大尺度上下文和细粒度边界连续性。

研究人员还回顾了连续性正则化相关工作。由于隧道图像中频繁存在背景元素和遮挡，准确的隧道特征识别需要适当的数据准备，即仅保留隧道掌子面区域以确保算法准确性。一种减少背景干扰的常见方法是精心选择或裁剪图像，确保训练数据中仅可见掌子面。另一种方法是在包含掌子面及其背景的图像上训练，这保留了所有上下文，但可能因背景干扰导致误分类。因此，在识别关键特征之前，精确分割掌子面区域至关重要。为实现精确分割，连续性约束至关重要，尤其是在处理边缘区域和遮挡时。传统的马尔可夫随机场/条件随机场（Markov Random Field, MRF/CRF）等方法已被广泛用于强制空间连贯性和平滑性。在近期的深度学习方法中，CRF已被成功集成作为后处理步骤或端到端模型的一部分，以细化边界并减少碎片化。至关重要的是，隧道环境中遮挡和复杂背景导致的严重输出碎片化，需要强制施加连续性先验。因此，研究人员特别采用CRF模块来增强基于变换器的分割网络的输出连续性，确保提取的掌子面连贯可靠，适用于后续分析。

研究人员还介绍了自监督预训练的相关工作。标注隧道掌子面图像的高成本和难度长期以来一直是制约准确分割模型训练的重要因素。自监督学习（Self-Supervised Learning, SSL）作为一种有前景的方法，通过掩码策略在未标注数据上训练模型，使其能够在没有大量人工标注的情况下学习有效的特征表示，从而缓解了这一问题。更近期的掩码图像建模（Masked Image Modelling, MIM）技术，如MAE和SimMIM，通过遮蔽输入图像部分并迫使网络重建缺失信息来预训练模型，在分割等密集预测任务上表现出色。在无监督学习和掩码图像建模已在通用计算机视觉领域广泛应用的背景下，其在专业工业和岩土工程分割任务中的系统性应用仍然有限。现有工程视觉中的自监督方法主要关注分类、检测或局部损伤分割，而对大规模区域（如隧道掌子面）的密集像素级预测关注有限。相反，隧道掌子面提取要求在复杂纹理、遮挡和严重环境变化条件下，对单一连续区域进行精确分割，这要求模型能够从有限标注数据中捕捉长程语义依赖关系。基于这些挑战，本工作整合了Vision Transformer的全局表示学习能力与SimMIM框架的数据效率，并且据研究人员所知，这是首次将此组合用于有限监督下的基础性隧道掌子面区域分割。

总体而言，尽管现有的深度学习和自监督方法在隧道掌子面分割精度上取得了一定提升，但重大挑战依然存在。特别是在有限标注数据和环境遮挡为特征的复杂条件下，确保隧道掌子面区域可靠高效的分割仍然是一项艰巨任务。因此，研究人员提出的TF-CRF框架，通过策略性地整合自监督预训练（SimMIM）以实现数据高效性，以及连续性约束（CRF）以实现边界细化，为在复杂工程环境中实现可靠、准确的隧道掌子面提取提供了一种新颖且高度实用的解决方案。

研究人员提出了TF-CRF框架的整体工作流程，该框架包含三个主要部分：自监督预训练、连续性约束模块以及用于隧道掌子面提取的预训练模型微调。首先，利用SimMIM自监督预训练来训练Swin Transformer，通过随机遮蔽图像部分并重建它们，使模型能够在无需人工标注的情况下学习基本的结构和纹理特征。接下来，在微调阶段将CRF连续性约束模块集成到解码头中。该模块通过优化边缘细节和强制空间连贯性来细化分割结果，有效解决碎片化问题，确保更准确和连续地描绘隧道掌子面。最后，使用少量高质量标注图像对预训练模型进行微调，使其适应并优化特定隧道场景，确保模型即使在复杂多变的环境中也能实现高性能分割和鲁棒性。

Swin Transformer作为分割模型的骨干网络，是一种专为视觉任务设计的层次化视觉变换器。通过采用移位窗口机制，它有效地捕捉了图像的细粒度细节和更广泛的层次结构，实现了高效计算，同时保留了广泛的上下文信息。在隧道场景中选择此架构而非传统纯CNN（如ResNet）或标准Vision Transformer（ViT）有几个关键原因。Swin Transformer的层次化特征学习与隧道掌子面的多尺度特性更好地对齐，掌子面既包含大型结构轮廓（如隧道拱顶），也包含岩石裂缝和节理等关键细粒度细节。基于窗口的注意力机制的固有局部性在早期阶段非常有效，能够捕捉这些高频、细粒度的局部特征（如裂缝），而层次结构则确保同时保持全局上下文以划定整个隧道区域。此外，基于窗口的自注意力将标准ViT的计算复杂度从二次降低到线性，这对于处理工程实践中捕获的典型高分辨率图像且无需过多延迟至关重要。在提出的框架中，Swin Transformer作为编码器，对输入图像进行逐步下采样，以捕捉不同细节层次的多尺度特征。在解码阶段，UPerHead（统一感知解析头）模块对这些特征进行上采样和融合，生成具有准确边界细节的空间连贯分割图。此外，CRF模块通过细化边缘连续性和保持区域连贯性，进一步增强分割效果，作为关键的边界正则化组件，以补偿变换器在目标边界处可能表现出的局部化分割错误，最终提高复杂隧道环境中的分割精度。

研究人员详细说明了基于SimMIM的自监督预训练过程。传统图像分割方法严重依赖标注数据集，而自监督预训练提供了一种解决方案。对于TF-CRF框架，研究人员特别利用Swin Transformer Base模型，并在SimMIM预训练阶段采用固定的60%掩码比例，该值通过初步实验确定，对于从复杂岩石纹理的隧道掌子面中实现稳健特征学习在经验上是有效的。整个过程包括：1) 图像掩码：将输入图像划分为不重叠的图像块，并随机选择一部分进行遮蔽。2) 编码：Swin Transformer编码器处理掩码后的图像，利用层次结构以及基于窗口和移位窗口的自注意力机制，从可见区域高效捕捉局部细节和全局上下文。3) 重建：一个轻量级解码头基于编码的全局特征预测被遮蔽图像块的像素值。4) 损失函数：使用L1损失评估重建质量，最小化预测像素值与真实值之间的绝对差。该预训练过程使Swin Transformer能够同时捕捉细粒度细节和全局上下文信息，使其成为下游任务的有效特征提取器。

为提高隧道掌子面分割的边界精度和空间一致性，研究人员提出将条件随机场（Conditional Random Field, CRF）模块直接集成到UPerNet解码头的分割路径中。这种新颖的集成构成了TF-CRF框架的连续性约束模块，至关重要。尽管Swin Transformer骨干网络具有全局上下文学习能力，但最终的分割头常常产生边界模糊和碎片化的概率图，在遮挡和有限标注数据存在的情况下，这一问题被加剧。研究人员在框架中保留了标准的UPerNet架构，并包含金字塔池化模块（Pyramid Pooling Module, PPM）和特征金字塔网络（Feature Pyramid Network, FPN），将CRF模块战略性地放置在最终上采样层之后，通过建模基于空间和外观的像素关系来解决边界限制。1) CRF模块的数学表示：输入是初始分割概率图。CRF模型通过最小化平衡初始分割概率与空间和上下文一致性的能量函数来细化初始标签分配。能量函数分解为一元势函数和成对势函数。一元势函数源自初始分割概率图。成对势函数捕捉相邻像素之间的空间和基于外观的关系，定义为高斯核的加权组合，结合了外观核和光滑性核。2) 基于平均场近似的有效推理：在完全连接的CRF模型中，像素对之间的密集连接导致计算复杂度高。为解决此问题，研究人员使用平均场近似进行有效推理。通过将消息传递操作表示为特征空间中的高斯卷积，并利用置换格（permutohedral lattice）进行高维滤波，将计算复杂度从O(N²)降低到O(N)。3) 参数：成对势参数通过在验证集上进行穷举网格搜索来确定，以平衡隧道掌子面图像分割输出的平滑性和准确性。标签兼容参数使用L-BFGS方法优化。

实验数据集包含在施工期间拍摄的隧道掌子面正交投影图像，分为用于模型预训练和微调的无标签和有标签数据集。预训练数据集（15，841张图像）聚合了来自多个隧道项目、具有异质地质条件和开挖技术的图像。这种广泛的数据多样性对于确保变换器骨干网络在面对领域偏移和环境变化时保持稳健至关重要，提供了丰富的特征空间，最大限度地降低了过拟合特定现场特征的风险，并提高了框架的跨领域适用性。用于有监督图像分割的微调数据集包含6，379张有标签隧道掌子面图像，按70%、15%和15%的比例划分为训练、验证和测试集。为评估有限标注数据下的性能，研究人员还进行了在随机选择的10%和30%训练数据子集上的实验。

实验在配备六块NVIDIA GeForce RTX 4090 GPU的机器上进行，使用PyTorch框架。在预训练阶段，使用AdamW优化器，初始学习率为0.0008，权重衰减为0.05。应用多步学习率调度器，模型从头训练1000个周期。应用数据增强技术，包括随机调整大小裁剪、翻转和掩码生成（比例0.6）。在微调阶段，加载预训练模型，使用AdamW优化，初始学习率为0.00045，权重衰减为0.01，并使用梯度裁剪。学习率计划包括前1500次迭代的线性预热，随后是多项式衰减。模型训练80，000次迭代，批大小为4，应用数据增强。

研究人员选取了平均交并比（mIoU）、精确率（Precision）和F1分数（F1-Score）作为评估指标。

为全面评估所提TF-CRF框架的有效性，研究人员与代表性的最新（State-of-the-Art, SOTA）分割模型和近期的自监督学习方法进行了对比实验。对比评估不仅评估了绝对分割性能，还评估了在有限标注场景（10%标注数据）下的数据效率，这在隧道工程应用中常见。首先，为评估SOTA自监督范式，研究人员包含了使用相同Swin-B骨干网络的MAE和基于DINO的预训练策略。结果表明，尽管这些方法在完全监督下取得了有竞争力的性能，但随着标注训练数据量的减少，其mIoU和精确率的下降幅度比TF-CRF更明显。具体而言，在10%数据设置下，TF-CRF保持了89.38%的高mIoU，优于Swin-MAE（85.20%）和Swin-DINO（84.64%）。这表明所提的基于SimMIM的预训练在学习适用于隧道掌子面图像的任务相关表示方面更有效。此外，研究人员将所提方法与传统工程基线（包括UNet和DeepLabV3+）进行了比较。尽管这些模型在100%数据下表现合理，但其性能在数据不足的情况下大幅下降。值得注意的是，TF-CRF的精确率在不同数据量下均保持较高水平，表明其在抑制背景噪声和避免由环境变化引起的误分类方面具有鲁棒性。最后，使用Swin Transformer骨干网络的对照实验表明，自监督预训练（SimMIM）显著优于从头训练和通用ImageNet监督预训练。这证实了从无标签隧道图像中学习的领域特定特征比通用摄影特征更适合这项专业任务。

为评估TF-CRF框架在实际隧道成像条件下的鲁棒性，研究人员在退化隧道条件下进行了针对性的性能分析。这些条件代表了隧道施工中常见的挑战，分为三类：(i) 重度遮挡，其中机械或碎屑部分遮挡隧道掌子面；(ii) 光照不一致，以强阴影或局部过曝为特征；(iii) 低能见度，涉及运动模糊或低光照噪声。所有模型均使用相同的配置，在10%标注训练数据上训练，并在表现出退化条件的测试图像上进行评估。研究人员从测试集中提取了一个专门的“退化子集”来量化模型在这些压力下的性能。结果如表所示，尽管所有模型与标准条件相比都经历了性能下降，但TF-CRF保持了显著更高的mIoU（87.92%），而DeepLabV3+为77.60%。这种鲁棒性源于基于SimMIM的预训练提供了更丰富的特征空间，对局部视觉噪声不敏感，以及CRF模块通过在模糊或遮挡区域传播标签信息恢复了结构连续性。定性结果进一步验证了这些发现。例如，在表示重度遮挡的行中，DeepLabV3+等标准模型产生碎片化预测，机械被错误地与背景融合。相反，TF-CRF成功地保持了隧道掌子面的连贯连续边界。这证明了该框架强制执行空间语义一致性的能力，这对于地下施工的高保真数字测绘至关重要。

消融研究部分，首先分析了自监督预训练在不同标注数据可用性下的影响。实验结果清楚地表明，预训练对分割性能，特别是在标注数据有限时，具有显著影响。经过预训练的模型在所有测试的数据规模下都一致优于未经预训练的模型。将标注数据量减少到30%和10%对预训练模型的性能影响最小。相比之下，未经预训练的模型随着数据规模减小性能急剧下降，揭示了其依赖更多数据才能达到可比结果。这些发现清楚地解释了在对比评估中观察到的性能优势，特别是在有限标注数据条件下。

接着，研究人员评估了CRF模块的性能。该部分比较了在使用10%标注训练数据时，添加CRF模块对分割性能的影响。对有预训练和无预训练的模型分别进行了评估，分别带有和不带CRF模块。添加CRF模块在整体分割指标上只带来了相对适度的改进。对于未经预训练的模型，mIoU从73.33%增加到74.77%，而在预训练模型中，mIoU从88.82%轻微增加到89.38%。同样，F1分数和精确率也只显示出边际增益。这表明CRF模块在整体分割指标方面可能无法提供显著改进。然而，尽管数值增益有限，CRF模块引入的定性改进要明显得多。如图所示，CRF模块显著减少了预测片段内的碎片化和不连续区域。此外，它增强了目标边界的准确性，导致边缘描绘更平滑、更精确。CRF对边缘细化的影响在未经预训练的模型中尤其显著。

最后，研究人员分析了计算开销。尽管所提出的TF-CRF框架提高了分割性能，但由于Swin Transformer骨干网络和密集的CRF细化模块，它引入了额外的计算复杂度。结果总结显示，与骨干Swin-B模型相比，包含CRF模块仅导致参数数量和推理时间的边际增加。值得注意的是，TF-CRF的推理延迟约为每张图像44毫秒，这对于隧道工程任务来说仍在可接受范围内。尽管CRF模块引入了额外的计算成本，但整体推理效率对于实际隧道工程应用仍然是可接受的。

本研究提出了一种结合自监督预训练和连续性约束的图像分割方法（TF-CRF），以解决隧道掌子面图像分割的挑战，特别是在标注数据有限的场景中。该方法利用SimMIM进行预训练，采用Swin Transformer作为骨干网络，并引入CRF模块以强制连续性约束。通过将自监督学习与连续性约束相结合，模型显著提高了处理图像边界细节的能力，同时减少了对大量标注数据的依赖，从而增强了分割的适用性和准确性。

实验结果清楚地证明了预训练和CRF模块在复杂隧道开挖环境分割性能方面的影响。值得注意的是，TF-CRF始终优于传统工程基线（如UNet、DeepLabV3+）和近期的SOTA自监督方法（如Swin-MAE和Swin-DINO）。该框架表现出卓越的数据效率；仅使用10%的标注数据，TF-CRF就实现了稳健的89.38% mIoU和94.39%的F1分数，显著优于基于通用ImageNet的监督预训练。此外，在退化隧道条件下进行了针对性分析，包括重度遮挡、光照不一致和低能见度。结果证实，TF-CRF框架在标准模型遭受严重碎片化的情景中保持了高分割精度。虽然CRF模块对整体像素级指标贡献适度，但它通过细化边界和确保空间语义一致性提供了关键的定性改进，这对于隧道应用中的高保真数字孪生至关重要。计算分析还表明，该框架在推理速度和准确性之间实现了良好的平衡，保持了可管理的开销，支持在工程工作流程中的实际部署。

总体而言，本研究可作为隧道掌子面图像分析的预处理步骤，为更准确的特征提取奠定基础。此外，该研究证明了使用预训练模型处理隧道掌子面图像的有效性。未来，研究人员计划将此方法扩展到其他特征的提取，进一步提高隧道掌子面分析的整体准确性和效率。

热点排行