LDAC-Net：一种采用交叉门控残差融合的并行双编码器网络，用于路面裂缝分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：LDAC-Net: A parallel dual-encoder network with Cross-Gated Residual Fusion for pavement crack segmentation

【字体：大中小】 时间：2026年06月18日 来源：Image and Vision Computing 4.2

编辑推荐：

　　李国岩|罗晨|郝志鹏|梅宇鹏中国天津市天津城建大学计算机与信息工程学院，邮编300384 摘要：路面裂缝是道路基础设施中常见的表面病害，它不仅威胁行车安全，还会直接影响维护规划。尽管深度学习在基于图像的裂缝分割方面取得了进展，但由于裂缝形态细长、对比度低以及背景纹理复杂，很难在

　　李国岩|罗晨|郝志鹏|梅宇鹏中国天津市天津城建大学计算机与信息工程学院，邮编300384

摘要：路面裂缝是道路基础设施中常见的表面病害，它不仅威胁行车安全，还会直接影响维护规划。尽管深度学习在基于图像的裂缝分割方面取得了进展，但由于裂缝形态细长、对比度低以及背景纹理复杂，很难在保持整体结构连贯性的同时保留边界细节。因此，像素级预测往往会出现不连续、误检和漏检现象。为解决这些问题，我们提出了LDAC-Net，这是一种用于路面裂缝分割的并行双编码器网络，其中轻量级CNN与自适应路由增强Transformer（ARET）协同工作，以学习互补的局部和全局特征表示。在卷积分支中，动态核注意力（DKA）通过自适应组合方向感知核与空间重加权方式，提升对细长裂缝及边界的识别能力。在多尺度融合阶段，我们引入了交叉门控残差融合（CGRF）机制，其核心的交叉门控融合单元可在CNN与Transformer特征之间实现双向通道调制，随后通过轻量级细化处理和自适应残差加权，生成尺度一致的融合特征。在Transformer分支中，多阶门控聚合机制可整合多尺度上下文信息，而双层路由注意力则有助于强化长距离依赖关系并减少冗余计算。在CrackTree260、DeepCrack和CrackForest三个公开数据集上的实验表明，LDAC-Net的F1分数分别达到81.48%、88.27%和78.08%，展现出更优异的整体分割性能。这些结果说明，LDAC-Net能够在复杂背景下提高边界清晰度和结构连贯性。

引言：在整个使用寿命期内，路面始终承受着交通荷载和环境因素的作用。作为最常见的表面病害类型，裂缝会促使水分侵入，加速界面恶化及结构性能下降，缩短路面使用寿命，同时增加路面检测和维护的工作量。传统的检测方法仍依赖于视觉观察和手工记录，这类方法存在劳动强度高、效率低以及安全隐患等问题[1]。早期的基于图像处理的方法主要依靠边缘和阈值等低级特征，这类方法在对比度弱和背景纹理复杂的条件下表现不佳，难以保持裂缝的连续性和完整性[2]。深度学习方法则具备更强的特征表示能力以及更稳定的跨场景性能，在准确率和抗噪声能力方面明显优于传统边缘检测算法[3]，因此逐渐成为裂缝检测的主流技术路线。基于深度学习的裂缝检测研究大致可分为三类：图像分类、目标检测和语义分割。图像分类仅能判断是否存在裂缝，无法实现几何量化；目标检测可提供裂缝的大致位置，更适合大规模检测和多缺陷管理中的快速筛选。然而，对于那些细长且连通性强、宽度远小于长度的裂缝，水平边界框无法准确描述其形状，从而导致过多的检测结果和定位偏差[4]。在需要精细描述细长轮廓、复杂边界以及进行几何量化的场景中，语义分割逐渐成为常用的技术手段。其像素级掩码可直接支持长度、宽度及连通性等结构化测量，还能与工程评估标准无缝结合。

在裂缝分割任务中，卷积神经网络推动了像素级识别能力的显著提升。FCN[5]和U-Net[6]确立了端到端像素预测及编解码器架构的范式，为细长裂缝的连续描绘奠定了基础。此后，DeepLabv3+[7]通过孔洞卷积增强了多尺度上下文信息，HRNet[8]则保持了高分辨率特征表示。这两种方法都在保持细长结构连续性与抑制弱对比度背景干扰之间取得了更好的平衡。与此同时，Pyramid Scene Parsing Network（PSPNet）和SegNet分别加强了金字塔结构下的上下文聚合与编解码器对齐能力。BiSeNet则在实时检测场景中实现了速度与准确性的平衡。此外，Gated-SCNN通过额外的形状分支提升了边界质量，能够更精确地勾勒裂缝边缘和细小分支[9][10][11][12]。针对土木工程应用，人们还提出了如SDDNet这类针对裂缝形态设计的轻量级实时网络[13]。为进一步适应细长几何结构和非均匀背景，研究人员引入了通道注意力、空间注意力以及可变形卷积，旨在提高对弱对比度、分支连接点及局部变形的敏感度，同时减少断裂和拓扑错误[14][15][16]。尽管有了这些进展，卷积在模拟长距离依赖关系和非局部关联方面的能力仍然有限。这一局限性常常导致细长裂缝结构的断裂、微分支的连通性问题以及宽度保持方面的缺陷，使得在纹理复杂或对比度低的背景下，裂缝特征更容易被噪声掩盖。

近年来，视觉Transformer得到了广泛研究。Pyramid Vision Transformer和Swin Transformer通过金字塔结构与移位窗口实现了分辨率与复杂度之间的平衡，而PVTv2则进一步提升了密集预测任务的性能与效率[17][18][19]。SegFormer[20]采用分层编码与轻量级解码器相结合的方式，实现了强大的跨尺度泛化能力与高效推理性能。Mask2Former[21]通过掩码注意力将注意力限制在候选掩码区域，统一了语义分割、实例分割和全景分割的建模框架，显著提升了边界贴合度与跨尺度一致性。Twins[22]则采用了混合的局部-全局空间注意力机制，在保持性能的同时降低了计算成本，从而提升了密集预测的准确性与效率。然而，单一类型的编码器往往难以同时兼顾局部细节与全局语义。高分辨率特征图上的卷积结构更擅长捕捉边界、纹理及其他局部几何特征，而依赖自注意力机制的Transformer则更善于建模跨区域依赖关系与全局上下文。如果网络仅依赖一种结构，就很难在边界细节与整体结构连贯性之间实现理想的平衡。

为解决上述问题，我们构建了一种双路径路面裂缝分割网络，其中CNN编码器与Transformer编码器并行运行，分别提取局部细节与全局语义。这两个分支通过跨分支融合在四个尺度上实现对齐与整合，随后由配备PixelShuffle模块的解码器逐步将特征重建为全分辨率，最终输出单通道裂缝掩码。在局部细节路径上，轻量级CNN编码器专注于保留边界和细小分支，我们在瓶颈层之后引入了动态核注意力（DKA）模块。该模块通过学习方向核上的方向感知权重，并将其与空间注意力相结合，显著提升了对细长、低对比度裂缝及微分支的识别能力。在全局语义路径上，我们采用了自适应路由增强Transformer（ARET），该模块通过路由注意力在区域层面抑制冗余计算，同时利用多尺度膨胀卷积整合长距离与短距离信息，从而形成与场景一致且去除了噪声的全局特征表示。在四个尺度上，两个编码分支还通过交叉门控残差融合（CGRF）模块实现互补。在每个尺度上，CGRF首先进行交叉门控增强，然后通过轻量级骨干网络对特征进行压缩与细化，最后通过动态残差加权获得互补的融合特征，由此形成f1–f4四层特征。最高层的f4特征作为解码的起点，而f1–f3则为逐步重建提供精细的空间线索。在解码阶段，通过PixelShuffle逐步提高空间分辨率。f1–f3特征与其对应的解码器模块结合以重建上下文，而f4特征仅通过PixelShuffle上采样，无需额外的解码器模块，从而在恢复高分辨率细节的同时保持全局拓扑一致性。因此，整个网络在准确率与效率之间实现了良好的平衡。本文的主要贡献如下：
• 我们提出了一种融合CNN与Transformer编码器的双路径路面裂缝分割网络，通过利用两者之间的互补性，该网络能够提取多尺度特征，并从最高层的融合特征开始解码，从而生成高分辨率裂缝掩码。
• 我们设计了轻量级CNN编码器用于提取局部细节，并在瓶颈层之后引入了动态核注意力（DKA）模块。DKA通过学习方向核上的方向感知权重并与空间注意力结合，显著提升了对细长、低对比度裂缝及微分支的识别能力。此外，我们还提出了自适应路由增强Transformer（ARET）编码器，该编码器通过路由注意力在区域层面压缩冗余信息，同时利用多尺度膨胀卷积整合长距离与短距离信息，从而实现了全局一致性与时域噪声抑制之间的平衡。
• 我们设计并引入了交叉门控残差融合（CGRF）模块。在每个尺度上，CGRF都对CNN与Transformer的中间特征进行三步融合：交叉门控增强、通过轻量级骨干网络进行压缩与细化，以及动态残差加权，从而获得互补的融合特征。由此形成了f1–f4四层特征，这些特征随后被用于逐步重建。

相关内容片段：
基于CNN的裂缝检测方法：早期的深度学习方法大多采用卷积架构，注重保持边界和细粒度结构。张等人[23]提出了CrackNet，该模型能够在三维沥青表面数据的投影图像上实现端到端的像素级裂缝检测，有效解决了手工设计特征无法有效表征裂缝的难题。随后，张等人[24]又提出了CrackNet的改进版本，进一步……

整体框架：为应对当前裂缝检测领域存在的问题与挑战，我们提出了LDAC-Net，这是一种由CNN与Transformer共同驱动的双路径裂缝分割网络，其整体架构如图1所示。该网络采用金字塔式分层设计，从上到下逐步提取多尺度特征。两个编码器并行处理相同的输入图像：CNN编码器擅长捕捉局部几何形状与边界细节，而ARET编码器则负责处理全局语义信息……

数据集：我们在三个公开的裂缝数据集上评估了所提方法的准确率与鲁棒性，这些数据集包括DeepCrack[45]、CrackTree260[46]以及CrackForest（CFD）[47]，具体情况如图8所示。DeepCrack包含537张分辨率为544 × 384的裂缝图像，涵盖了多种场景和尺度，并带有像素级标注。该数据集被广泛用于裂缝分割模型的训练与客观性能评估。具体而言，其中300张图像用于训练，剩余237张用于测试……

结论：为解决在复杂背景下进行像素级裂缝检测时，同时建模局部细节与全局语义、以及平衡边界清晰度与整体结构连通性之间的难题，我们提出并验证了一种名为LDAC-Net的并行双编码器网络。通过充分利用CNN编码器与Transformer编码器的互补优势，该模型在局部细节保留与全局语义建模方面都取得了显著提升……

CRediT作者贡献说明：李国岩：方法设计、资金获取、概念构思；罗晨：写作——审阅与编辑、写作——初稿撰写、可视化处理；郝志鹏：监督指导、资源协调；梅宇鹏：可视化处理、性能验证。

利益冲突声明：作者声明不存在任何可能影响本文研究工作的已知财务利益或个人关系。

致谢：本研究得到了中国天津市科技计划的支持（项目编号：25YFKFYS00240）。

联系信箱：

粤ICP备09063491号

热点排行