多尺度上下文感知网络实现：用于高效的图像语义分割杨毅、郭冲

《Applied Sciences》：Multi-Scale Context-Aware Network Implementation for Efficient Image Semantic Segmentation Yi Yang and Chong Guo

【字体：大中小】 时间：2026年04月22日 来源：Applied Sciences 2.5

编辑推荐：

　　摘要图像语义分割在自动驾驶、医学成像和遥感中至关重要。虽然卷积神经网络（CNN）在局部特征提取和空间结构建模方面表现出色，但其有限的感受野限制了长距离依赖关系的捕获以及全局语义一致性。变换器通过自注意力机制提供了强大的全局建模能力，但通常缺乏局部归纳b

　　摘要图像语义分割在自动驾驶、医学成像和遥感中至关重要。虽然卷积神经网络（CNN）在局部特征提取和空间结构建模方面表现出色，但其有限的感受野限制了长距离依赖关系的捕获以及全局语义一致性。变换器通过自注意力机制提供了强大的全局建模能力，但通常缺乏局部归纳bias，并且在小型数据集上的泛化能力较弱。为了解决这些限制，本文提出了一种多尺度上下文感知网络（MSC-Net）用于图像语义分割。在编码器-解码器框架下，MSC-Net结合了卷积主干网络和多尺度自注意力模块，以整合CNN和注意力机制的互补优势。主干网络提取局部纹理和结构信息，可以采用MobileNet、Xception、DRN和ResNet等架构，而注意力模块捕获长距离依赖关系和多尺度上下文信息。这种设计提高了跨层特征协作、多尺度特征融合和边界质量，同时保持了计算效率。实验结果表明，在相似的计算设置下，MSC-Net实现了38.8%的mIoU和98.4%的ACC。与SegFormer和DeepLabV3+相比，该模型分别提高了约3.0和3.3个百分点的mIoU，同时降低了FLOPs和参数大小。

1. 引言
在自动驾驶的感知系统中[1]，语义分割[2]是场景理解的核心任务之一，它在将原始视觉输入转换为高级语义表示方面起着关键作用。语义分割的主要目标是为图像中的每个像素分配一个分类标签，从而实现像素级别的环境理解。与目标检测或实例分割不同，语义分割不仅识别每个对象的类别，还勾勒出其精确的边界和空间范围，为自动驾驶系统中的路径规划、动态障碍物避让和可驾驶区域检测提供了重要支持。
近年来，基于深度学习的分割方法在准确性和泛化能力方面取得了显著进展。其中，卷积神经网络（CNN）在不同的应用场景[3]和异构部署平台[4]上得到了广泛研究，并因它们能够通过堆叠卷积操作分层提取空间特征而成为主导框架。代表性模型包括全卷积网络（FCN）[5]、U形卷积网络（U-Net）[6]和金字塔场景解析网络（PSP-Net）[7]。然而，CNN的局部感受野限制了它们捕获长距离依赖关系的能力，导致全局语义建模不足。相比之下，基于变换器的架构利用了自注意力机制，在自然语言处理和视觉任务中展现了强大的全局建模能力。视觉变换器（ViT）将图像分割成一系列块并执行全局注意力计算，从而能够建模长距离语义依赖关系。相关研究包括A-ViT[8]和Tokens-to-Token ViT[9]。然而，ViT严重依赖大规模数据集，并且缺乏CNN所固有的局部归纳bias，这在小样本训练或高分辨率预测时会导致性能下降。因此，有效地整合CNN的高效局部特征提取和变换器的全球感知能力已成为语义分割的关键研究方向。
为了解决语义分割中局部结构表示与全局语义建模之间的不平衡，本文提出了一种新的多尺度上下文感知网络（MSC-Net）。该网络基于编码器-解码器架构构建，其中编码器使用卷积主干网络捕获图像的局部结构特征，同时结合基于窗口的、膨胀的区域性和全局多尺度自注意力机制来建模长距离依赖关系，并在不同层次上自适应融合上下文信息。在解码器阶段，模型进一步将低级空间细节与高级语义特征整合起来，以实现精细的特征重建和准确的边界恢复。MSC-Net的核心思想是其多尺度上下文融合机制，该机制通过多头自注意力在多个尺度和窗口范围内进行计算，以实现局部和全局表示的协同建模。这种融合策略使网络在保持边界精度的同时，增强了全局语义一致性和跨尺度鲁棒性，从而在复杂场景中实现卓越的分割性能和泛化能力。
所提出的MSC-Net的主要贡献体现在以下三个方面：

（1）多尺度上下文融合机制
在编码阶段，该机制通过具有不同膨胀率和窗口大小的并行多尺度注意力分支计算自注意力图，从而自适应地融合多尺度上下文信息。每个分支专注于局部结构细节、区域上下文关系和全局语义一致性，而动态权重调整实现了跨尺度特征协作。实验结果表明，这种机制显著增强了模型对多尺度对象和全局一致性的鲁棒性，同时保持了精确的边界定位，最终提高了整体分割性能。

（2）混合编码器设计
在统一的编码器-解码器框架下设计了混合编码器架构，结合了CNN的局部特征提取能力和多尺度自注意力的全局依赖关系建模能力。CNN模块使用卷积运算符在局部感受野内提取纹理和边界特征，从而保持结构完整性，而多尺度机制捕获长距离依赖关系以构建连贯的全局语义。这种设计扩展了有效感受野并增强了语义连续性，有效缓解了传统卷积网络在长距离依赖关系建模方面的局限性。

（3）上下文感知解码策略
在解码器阶段，提出了一种上下文感知解码策略。引入了语义对齐模块，将高级语义特征与低级空间细节结构化地融合，同时通道-空间联合注意力机制根据上下文语义自适应地重新加权特征重要性。这种策略有效地恢复了对象边界和细节，减少了语义漂移，并在复杂场景中保持了空间精度和良好的语义一致性。此外，它具有灵活性，兼容各种主干网络，展示了强大的可扩展性和通用性。

总结来说，所提出的MSC-Net有效地整合了卷积网络的局部特征提取能力和多尺度注意力机制的全局依赖关系建模能力，在语义分割任务中实现了多尺度上下文信息的有效协同建模。这种方法不仅在边界保持和全局语义一致性方面取得了显著改进，而且在复杂驾驶场景中展示了卓越的鲁棒性和泛化能力。
本文的其余部分组织如下。第2节回顾了语义分割、混合CNN-Transformer方法和多尺度建模策略的相关工作。第3节介绍了MSC-Net的网络架构和训练策略。第4节描述了实验设置，包括数据集、预处理和评估指标。第5节报告了实验结果，包括可视化分析、消融研究和与代表性基线的比较。第6节讨论了所提出方法的意义、局限性和泛化能力。最后，第7节总结了本文并概述了未来的研究方向。

2. 相关工作
最近关于复杂场景语义分割的研究可以大致分为几个互补的研究方向。为了更好地定位所提出的MSC-Net，本节从四个角度回顾了先前的工作：基于CNN和注意力的语义分割方法、混合CNN-Transformer方法、高分辨率Transformer主干网络以及基于掩码或多尺度建模方法。这种分类有助于澄清方法论背景，并突出了我们多尺度上下文建模设计的动机。

2.1 基于CNN和注意力的语义分割
卷积神经网络（CNN）长期以来一直是语义分割的主导框架。通过全卷积架构和多尺度策略，基于CNN的方法显著提高了像素级别的预测性能。代表性例子包括全卷积网络（FCN）[10]、U-Net[6]和DeepLabv3+[11]。然而，由于它们依赖于局部感受野，CNN在建模长距离依赖关系方面的能力有限，这可能会影响复杂场景中的全局语义一致性。
随着视觉变换器（ViT）的发展，自注意力机制被引入到密集预测任务中。代表性的基于Transformer的分割模型包括SETR[12]、Segmenter[13]和SegFormer[14]。变换器能够建模长距离像素关系并增强全局上下文表示。然而，它们通常涉及更高的计算复杂性和内存消耗，并且可能缺乏强大的局部归纳bias，这对高分辨率分割任务来说是一个挑战。

2.2 混合CNN-Transformer方法
为了结合CNN的局部特征提取能力和Transformer的全局建模能力，近年来提出了各种混合架构。代表性例子包括DDRNet[15]、PIDNet[16]和RTFormer[17]。轻量级模型如LETNet[18]、HAFormer[19]和BiSeNet[20]通过高效的注意力机制和结构优化实现了有希望的实时性能。尽管这些方法在准确性和效率之间取得了良好的平衡，但大多数方法强调轻量级设计和高帧率。对于复杂的道路场景，多尺度上下文依赖关系的协调建模和边界连续性可能仍需要进一步改进。

2.3 高分辨率Transformer主干网络
一些研究通过增强Transformer主干网络来提高密集预测性能。HRViT[21]和HRFormer[22]通过高分辨率多分支架构加强了空间表示能力，并促进了多尺度特征交互。这些方法主要关注主干层级的优化。
相比之下，我们的方法侧重于在模块化主干网络上引入专用的多尺度上下文建模模块，旨在增强局部结构和全局语义的协同表示。

2.4 基于掩码和多尺度建模方法
基于掩码的框架，如Mask2Former[23]，将分割问题重新定义为掩码分类问题并实现了强大的性能。然而，它们的计算开销在资源受限的部署场景中可能会带来挑战。
关于多尺度建模，ASPP[24]通过并行孔洞卷积捕获多尺度特征，而HRNet[25]保持多分辨率表示以提高空间精度。这些方法为跨尺度特征交互提供了宝贵的见解。
基于这些想法，所提出的MSC-Net引入了多尺度上下文建模注意力（MCMA）模块，该模块通过局部窗口注意力、区域膨胀注意力和全局上下文增强逐步聚合上下文信息。这种设计旨在在保持计算实用性的同时提高语义一致性和边界表示。

3. MSC-Net的网络架构和训练策略
本节介绍了MSC-Net的总体设计和训练策略，遵循网络架构构建→多尺度上下文建模→解码器重建→训练优化的逻辑流程。首先，第一部分介绍了MSC-Net的总体编码器-解码器框架。接下来，第二部分详细描述了所提出的多尺度上下文建模注意力（MCMA）模块，该模块包括局部窗口注意力分支、双分支膨胀区域注意力模块（中尺度和大尺度）和全局上下文分支。第三部分介绍了网络的上下文感知解码器。最后，描述了本工作中采用的训练优化策略。

3.1 MSC-Net框架
如图1所示，MSC-Net的总体架构遵循编码器-解码器范式。在编码器阶段，使用卷积神经网络（CNN）提取分层表示，其中浅层卷积捕获局部纹理和空间细节，而深层卷积生成高级语义特征。这些高级特征通过局部窗口注意力、膨胀多尺度 attention和全局上下文注意力模块进一步增强，以建模多尺度上下文依赖关系并产生具有上下文丰富的表示。在解码器阶段，增强的高级特征与低级空间特征融合，共同重建全局语义一致性和精细的几何细节。这种设计使MSC-Net在多尺度鲁棒性、全局一致性和边界精度之间实现了有效的平衡，从而实现了卓越的分割性能。

3.2 特征提取主干网络
在编码阶段，模型引入了结构分支设计。特征提取主干网络可以选择典型的卷积架构，如残差网络（ResNet）[26]、Xception[27]或MobileNet[28]。它们的共同目标是从低层次逐步提取分层语义表示，同时保持计算效率。对于给定的输入图像，我们将输入张量表示为（1），其中表示输入图像，表示输入通道数，表示图像高度，表示图像宽度。在本工作中，对于RGB图像，和表示预处理后的空间分辨率（例如，在我们的实验中）。
通过应用分层卷积和渐进式下采样，主干网络产生一系列表示不同语义层次的分层结构化特征图。（2），其中表示第l阶段的特征张量，表示前一阶段的特征张量，表示卷积变换，表示下采样操作，L是主干网络的总阶段数。为了保持一致性，粗体大写字母表示本文中的特征张量。
编码器产生一组多阶段特征图，表示为，其中表示主干网络的第阶段特征图。我们使用早期阶段的特征图作为几何分支，记为，因为它们保留了诸如边缘和纹理等精细的空间细节。相比之下，后期阶段的特征图被用作语义分支，记为，因为它们具有更广泛的感受野，能够编码更高层次的语境信息。这种结构上的分离将几何表示和语义表示分开，减少了在解码器最终融合之前的信息混合。3.3. 多尺度上下文建模注意力（MCMA）传统的卷积操作依赖于固定的采样位置进行特征提取，这使得它们难以有效建模跨尺度变化和全局依赖性。因此，它们的表示能力本质上是有限的。尽管全局多头自注意力（Global-MHSA）能够捕捉长距离依赖性，但其计算复杂性随输入分辨率的增加而呈二次方增长，对于高分辨率特征图来说成本过高。此外，纯粹的全局建模会削弱模型保持局部结构约束的能力，通常导致空间细节模糊和边界偏移。为了克服这些限制，我们提出了一个多尺度上下文建模注意力（MCMA）模块作为网络的上下文编码器。MCMA以编码器输出的高级语义特征为输入，构建了三个注意力组件，其中扩散的区域组件包含两个并行子分支（中尺度和大尺度）：（1）局部窗口注意力分支——提取局部语义和细粒度结构特征。（2）扩散区域注意力（双分支：中尺度和大尺度）——建模区域依赖性并捕捉长距离语义一致性。（3）全局上下文分支——整合图像级上下文信息以增强整体场景理解。这些组件共同形成了一个从局部到区域到远距离再到全局表示的多尺度上下文建模路径。通过空间上划分特征图并限制自注意力在局部窗口内进行，MCMA大大降低了计算成本，同时增强了局部几何一致性和结构感知。这种设计在全局依赖性建模和局部特征保留之间取得了平衡，实现了连续的语义融合和跨尺度互补性，从而提高了场景理解和尺度鲁棒性。3.3.1. 局部窗口特征注意力分支局部窗口注意力将每个空间窗口视为一个独立的Mini-Transformer，其中令牌交互仅在同一窗口内进行，不同区域之间不交换信息。这种分区的自注意力机制专注于局部空间结构，如边缘、纹理和形状，从而增强了模型捕捉细粒度几何和结构细节的能力。如图2所示，输入特征图首先通过通道映射和归一化处理：然后将其划分为多个不重叠的窗口，每个窗口包含固定数量的像素。模型仅在每个窗口内计算注意力，因此每个像素仅与其局部邻域进行交互。给定一个局部窗口大小，窗口的总数可以计算为：每个局部窗口包含令牌。这种设计确保了局部窗口注意力仅在不同空间相邻的补丁之间建立相关性，以线性的计算成本保留了几何连续性和局部纹理信息。每个窗口定义了一个明确的空间边界，自然引入了平移不变性，而窗口之间的统计一致性提高了模型的泛化稳定性。在每个局部窗口内，特征被 flatten 成一个令牌矩阵，其中表示窗口索引。然后通过可学习的线性投影获得查询、键和值矩阵：对于每个注意力头，使用缩放的点积注意力计算第 i 个窗口内的局部注意力权重：注意力机制不仅基于语义相似性，还对空间距离和方向关系敏感。当两个像素在空间上接近时，注意力倾向于加强它们之间的连接以保持局部一致性。相反，当像素相距较远时，模型应抑制对远距离区域的过度反应，以保持局部结构信息。因此，引入了一个可学习的相对位置偏差矩阵作为几何先验来辅助计算注意力分布。这里的“几何先验”指的是一个显式的空间归纳偏差，它编码了同一窗口内令牌之间的相对位移。它为不同的空间偏移引入了可学习的偏好，使注意力机制能够同时建模语义相似性和局部几何结构。对于每个注意力头，方程（7）给出了局部窗口内的标准基于内容的缩放点积注意力。为了进一步编码空间几何信息，我们结合了方程（8）中定义的可学习相对位置偏差。因此，最终注意力权重计算如下：最后，通过使用注意力权重矩阵聚合值特征获得局部窗口注意力的输出。为每个注意力头提供不同的上下文线索以实现多视图特征重建。然后将所有注意力头的输出连接起来，接着是一个输出投影，它学会自适应地融合多维信息。所有注意力头的输出随后被连接起来，再经过一个输出投影层，该层学习如何自适应地融合多维信息。不同的上下文线索为每个注意力头提供支持，以实现多视图特征重建。所有注意力头的输出随后被连接起来，接着是一个输出投影层，它学会自适应地融合多维信息。最后，局部窗口注意力的输出是通过使用注意力权重矩阵聚合值特征获得的。为了进一步增强沿通道维度的全局语义建模能力，我们引入了一个额外的分支——全局上下文分支（GCB），与多尺度空间注意力模块一起使用。这个分支对输入特征图执行全局信息聚合和自适应通道重校准，有效地建模了长距离语义依赖性。分支首先应用全局平均池化（GAP）[29]来提取全局统计向量。基于这个全局描述符，采用两个多层感知器（MLPs）来建模通道间关系，其中使用修正线性单元（ReLU）和Sigmoid激活函数来实现非线性变换，生成用于通道重加权的响应向量[30,31]。全局上下文注意力分支为了进一步增强沿通道维度的全局语义建模能力，我们引入了一个额外的分支——全局上下文分支（GCB），与多尺度空间注意力模块一起使用。这个分支执行全局信息聚合和自适应通道重校准，有效地建模了长距离语义依赖性。分支首先对输入特征图应用全局平均池化（GAP）[29]来提取全局统计向量。基于这个全局描述符，使用两个多层感知器（MLPs）来建模通道间关系，其中使用修正线性单元（ReLU）和Sigmoid激活函数来实现非线性变换，生成用于通道重加权的响应向量[30,31]。随后，采用双线性插值来实现特征图之间的维度对齐。(20) 其中表示通道级的引导权重。是高层特征；和是可学习参数，提供引导权重和偏移量，而对空间维度进行全局平均池化。(21) 其中是上采样后的高层特征图，表示上采样网格上的目标坐标，是四个相邻的整数坐标，插值是按通道进行的。低层特征通过高层的全局语义信息进行选择性细化：(22) (23) 其中是从生成的空间引导掩码，和是可学习的卷积层（用于生成引导掩码和转换低层特征），表示元素级乘法，表示低层特征图。在获得处理后的高层语义特征和低层结构特征后，两者沿通道维度进行比例对齐并连接起来，形成一个结合了全局语义和局部细节的联合特征表示。基于这个联合特征，应用两层连续的卷积和非线性激活来执行局部上下文聚合，进一步增强特征之间的语义相关性，最终实现像素级预测。(24) 其中表示通道级连接，是卷积层，是批量归一化，表示预测概率值，和是中间特征图。3.4. 训练策略为了实现高效的收敛和强大的泛化能力，在训练阶段设计了一种多阶段联合优化策略。该策略整合了三个互补的组成部分——学习率（LR）调度、损失函数设计和多源数据融合——以全面提升模型性能。(1) 动态学习率调度对于学习率控制，我们采用经典的多项式衰减调度器（Poly LR）。其核心思想是随着迭代次数的增加逐渐降低学习率，平衡收敛速度和稳定性。第 i 次迭代的学习率定义为 [32]：(25) 其中表示第 i 次迭代的学习率，表示初始学习率，是总迭代次数，是衰减幂。 (2) 分阶段损失切换机制为了平衡训练稳定性和细粒度区分，提出了一种两阶段损失函数切换机制。在训练的早期阶段（前 20 个周期），使用交叉熵损失（CE）来确保快速收敛和全局类别分布的稳定学习。在后期阶段（最后 10 个周期），损失函数切换为聚焦损失（Focal Loss），这强调了难以分类的样本和边界区域 [33]。 (26) 其中表示训练样本的数量，是第 i 个样本的真实类别预测概率，是相应的真实标签指示器，是聚焦损失的聚焦参数。该分阶段优化策略在早期阶段保持了全局收敛，同时在后期阶段逐步增强了模型对细粒度语义识别和边界精度的能力，实现了从全局收敛到局部细化的平滑过渡。(3) 多源数据融合训练在多源融合训练中，我们首先通过类别索引重映射和一致的颜色编码来统一各个数据集的语义标签空间。然后，应用具有统一归一化和随机裁剪的融合策略，以便模型能够适应光照变化，从而在复杂的道路环境中提高鲁棒性。总体而言，训练框架整合了三种关键机制——动态学习率调度、多源数据融合和分阶段损失优化——这些机制共同稳定了优化过程，并增强了细粒度细节识别和跨域泛化能力。表 1 展示了所提出模型的主要训练配置参数。表 1. MSC-Net 在 Apollo 和自收集数据集上的多源融合的主要训练设置。实验使用 Xception 作为骨干网络，在 Apollo 和自收集的数据集上进行。我们在训练期间采用两阶段损失切换策略（CE 接着是 Focal Loss）。输入分辨率固定为 512 × 512，以平衡准确性和计算效率。图 4a,b 展示了训练损失在周期和迭代级别的变化趋势。在早期训练阶段（大约前 10 个周期），训练损失快速下降，平均降低了约 68.5%，表明模型在训练开始时有效地捕获了主导的语义表示。在中后期阶段，损失曲线逐渐变得平滑并在相对较低的水平上稳定，表明优化过程没有明显的过拟合。图 4. MSC-Net 随着周期和迭代的训练损失演变。在迭代级别，损失曲线在早期训练阶段（前 5k 次迭代内）显示出中等波动，方差约为 0.012。这种现象主要是由于梯度更新的随机性和多源数据融合引起的分布不一致性。随着训练的进行，波动幅度逐渐减小，方差降至 0.003 以下，证明了所提出的多阶段联合优化策略——包括动态学习率调度和分阶段损失切换——有效实现了梯度稳定并增强了收敛可靠性。4. 实验本节从多个角度评估 MSC-Net 的有效性。我们首先介绍实验设置，包括实现细节、数据集和评估指标。然后，我们展示定性可视化结果、消融研究和与代表性基线方法的定量比较，以验证所提出的架构。4.1. 实验设置所有实验都在 PyTorch (v1.12.1) 中实现，使用 CUDA 11.3 和 cuDNN 加速。除非另有说明，模型训练是在配备 NVIDIA A10 GPU（24 GB 内存）的工作站上进行的。网络使用 SGD 进行优化，动量为 0.9，权重衰减为 1 × 10?4。初始学习率为 0.007，并遵循多项式衰减调度（幂 = 0.9）。训练期间批量大小设置为 4，适当时采用同步批量归一化。模型在混合训练集上训练 30 个周期，大约进行 300,000 次迭代。数据增强包括随机水平翻转、在 [0.5, 2.0] 范围内的随机缩放以及随机裁剪到 512 × 512 的分辨率。所有图像都使用 ImageNet 的均值和标准差进行归一化。在这种配置下，MSC-Net 在单个 NVIDIA A10 GPU 上的总训练时间约为 22 小时。推理效率在 Jetson AGX Xavier（15W 模式）上进行评估，详细的基准测试协议已在前一小节中描述。4.2. 实验数据收集和处理在这项研究中，Apollo 数据集具有双重用途。一方面，它作为一个公共基准，用于可复制的比较和消融研究。另一方面，它提供了大规模训练样本，作为学习道路场景一般语义表示的主要基础。为了补偿公共基准中长尾和挑战性条件的不足覆盖，我们进一步构建了一个自收集的数据集，专注于特殊天气条件和罕见场景（例如，眩光、雨天、雾天、夜间场景和复杂光照）的采集和标注。在统一的标签映射和归一化方案下，多源数据联合用于训练。具体来说，我们将 Apollo 训练部分和自收集的训练部分合并成一个混合训练集，并在训练期间均匀地从合并的集合中抽取样本（大约 75% 的 Apollo 和 25% 的自收集数据）。这种设置使模型能够同时受益于“大规模的一般监督（Apollo）”和“针对挑战性样本的针对性监督（自收集数据集）”，从而在复杂的道路环境中提高鲁棒性和泛化能力。表 2 总结了所提出模型的主要训练配置参数。表 1. MSC-Net 在 Apollo 和自收集数据集上进行多源融合的主要训练设置。实验使用 Xception 作为骨干网络，在 Apollo 和自收集的数据集上进行。我们采用两阶段损失切换策略（CE 接着是 Focal Loss）进行训练。输入分辨率固定为 512 × 512，以平衡准确性和计算效率。图 4a,b 展示了训练损失在周期和迭代级别的变化趋势。在早期训练阶段（大约前 10 个周期），训练损失迅速下降，平均减少了约 68.5%，表明模型在训练开始时有效地捕获了主导的语义表示。在中后期阶段，损失曲线逐渐变得平滑并在相对较低的水平上稳定，表明优化过程收敛良好，没有明显的过拟合。图 4. MSC-Net 随着周期和迭代的训练损失演变。在迭代级别，损失曲线在早期训练阶段（前 5k 次迭代内）显示出适度的波动，方差约为 0.012。这种现象主要归因于梯度更新的随机性和多源数据融合引起的分布不一致性。随着训练的进展，波动幅度逐渐减小，方差降至 0.003 以下，证明了所提出的多阶段联合优化策略——包括动态学习率调度和分阶段损失切换——有效地实现了梯度稳定并增强了收敛可靠性。4. 实验本节从多个方面评估 MSC-Net 的有效性。我们首先介绍实验设置，包括实现细节、数据集和评估指标。然后，我们展示定性可视化结果、消融研究和与代表性基线方法的定量比较，以验证所提出的架构。4.1. 实验设置所有实验都在 PyTorch (v1.12.1) 中实现，使用 CUDA 11.3 和 cuDNN 加速。除非另有说明，模型训练是在配备 NVIDIA A10 GPU（24 GB 内存）的工作站上进行的。网络使用 SGD 进行优化，动量为 0.9，权重衰减为 1 × 10?4。初始学习率为 0.007，并遵循多项式衰减调度（幂 = 0.9）。训练期间批量大小设置为 4，适当时采用同步批量归一化。模型在混合训练集上训练 30 个周期，大约进行 300,000 次迭代。数据增强包括随机水平翻转、在 [0.5, 2.0] 范围内的随机缩放以及随机裁剪到 512 × 512 的分辨率。所有图像都使用 ImageNet 的均值和标准差进行归一化。在这种配置下，MSC-Net 在单个 NVIDIA A10 GPU 上的总训练时间约为 22 小时。推理效率在 Jetson AGX Xavier（15W 模式）上进行评估，详细的基准测试协议已在前一小节中描述。4.2. 实验数据收集和处理在这项研究中，Apollo 数据集具有双重用途。一方面，它作为一个公共基准，用于可复制的比较和消融研究。另一方面，它提供了大规模训练样本，并作为学习道路场景一般语义表示的主要训练基础。为了补偿公共基准中长尾和挑战性条件覆盖不足的问题，我们进一步构建了一个自收集的数据集，专注于特殊天气条件和罕见场景（例如，眩光、雨天、雾天、夜间场景和复杂光照）的采集和标注。在统一的标签映射和归一化方案下，多源数据联合用于训练。具体来说，我们将 Apollo 训练部分和自收集的训练部分合并成一个混合训练集，并在训练期间均匀地从合并的集合中抽取样本（大约 75% 的 Apollo 和 25% 的自收集数据）。这种设置使模型能够同时受益于“大规模的一般监督（Apollo）”和“针对挑战性样本的针对性监督（自收集数据集）”，从而在复杂的道路环境中提高鲁棒性和泛化能力。表 2 总结了 Apollo 数据集和自收集数据集的主要特征，包括它们的数据来源、典型场景、规模、注释类型以及在本研究中的具体作用。这种比较突出了这两个数据集在基准导向学习和挑战性道路场景鲁棒性增强方面的互补价值。图 5 展示了 Apollo 数据集中的代表性日间道路场景样本。图 6 展示了自收集数据集中的代表性夜间和雾天道路场景样本。图像中可见的非英文文本是原始道路场景的一部分，不会影响图形的解释。表 2. Apollo 数据集和自收集数据集的比较，包括数据特征、分割以及它们在本研究中的作用。图 5. Apollo 数据集中的代表性日间道路场景样本。图 6. 自收集数据集中的代表性夜间和雾天道路场景样本。4.3. 评估指标为了全面评估语义分割，我们采用了四个互补的指标：wIoU、mIoU、ACC 和 class-ACC [34,35]。基于 IoU 的指标（mIoU/wIoU）衡量区域级别的重叠情况，对边界/形状错误非常敏感，这对于保持细薄且连续的车道标记至关重要。mIoU 平等对待所有类别，更好地反映了少数类别的性能，而 wIoU 考虑了类别频率的不平衡，并在真实的像素分布下表示了整体质量。ACC 提供了一个直观的整体像素正确性度量，class-ACC 平衡了每个类别的准确性，以避免被多数类别主导的过于乐观的评估。加权交并比（weighted Intersection over Union）定义为 (27)，其中 N 是类别的数量，表示真实类别为且预测类别为的像素数量。平均交并比（mean Intersection over Union）定义为 (28)，这里，和分别表示类别 i 的真正例、假正例和假负例。整体像素准确率（overall pixel accuracy）定义为 (29)，它衡量所有类别中正确分类像素的比例。类别像素准确率（class pixel accuracy）定义为 (30)，它平均了每个类别的像素准确率，在类别不平衡的情况下提供了更公平的评估。5. 结果为了验证所提出方法的有效性，我们在由 Apollo 数据集 [36] 和我们自收集的数据集组成的组合数据集上进行了实验。在训练之前，所有图像都通过随机裁剪、水平翻转和归一化进行增强，以提高模型的泛化能力。训练图像统一缩放到 512 × 512 的分辨率，以确保数据集之间的一致性和计算效率。首先，可视化了模型在推理阶段的注意力分布，并分析了局部窗口注意力、多尺度膨胀注意力和全局上下文注意力的响应模式。通过比较不同注意力模块的空间关注区域和通道响应，可以直观地揭示每个组件的功能范围和注意力特征。这种分析验证了所提出的多尺度注意力网络的有效性，并展示了其在推理过程中进行层次化语义特征建模的能力。5.1. 推理可视化分析图 7a,b 展示了所提出模型在真实世界道路场景上的语义分割结果。如图所示，尽管存在不均匀的光照、阴影遮挡和障碍物的干扰，模型仍然一致地检测到了主要车道标记的连续结构。车道区域被成功识别和分割，用白色和紫色突出显示。图 7. 复杂驾驶场景中的语义分割结果示例。这些结果表明，模型在复杂环境条件下保持了高感知精度，并在空间一致性和边界保持方面表现出强大的鲁棒性。这进一步验证了所提出方法在识别细长目标和提取连续结构特征方面的有效性。图 8 展示了模型在局部窗口注意力机制下的特征响应。如图所示，特征图显示出明显的块状分布模式；在每个窗口内，像素区域形成了独立的注意力聚合单元。这表明局部窗口注意力主要关注空间相邻区域内的特征关系，并通过在一个固定窗口范围内计算的自我注意力有效地建模了局部结构和纹理信息。图 8. 局部窗口注意力的特征响应图。这种行为表明，模型在早期阶段专注于高分辨率的局部特征学习，为后续的多尺度膨胀注意力处理提供了精确和稳定的局部语义基础。图 9 展示了推理过程中的多尺度膨胀注意力的热图响应，其中 (a) 对应于中等尺度分支，(b) 代表大尺度分支。可以观察到，随着膨胀速率 r 的增加，注意力的感受野显著扩大，使模型能够从更广泛的空间范围内聚合上下文信息。图 9. 不同感受野尺度下的区域膨胀注意力可视化。在中等尺度注意力分支中，响应主要集中在对象边界和相邻区域，表明模型专注于捕获结构特征并保持局部语义一致性。相比之下，大规模注意力分支在整个场景中展现出更广泛的分布，使模型能够感知长距离的语义依赖关系并实现跨区域特征关联。这种多尺度扩张注意力机制通过构建不同扩张率的稀疏注意力场，在保持计算复杂度不变的情况下有效增强了模型的全局感知能力。因此，它在局部细节建模和全局语义理解之间实现了平衡的表示。图10展示了全局上下文注意力模块在推理过程中的通道级权重分布。该模块通过全局平均池化捕获整个特征图的上下文信息，并通过通道重新加权来适应性调整每个特征的重要性。如图10所示，注意力权重的范围在0.4到0.7之间，显示出一定程度的层次化特征选择性。一些通道的权重明显高于平均值，表明模型对全局语义特征（如主干道结构和车道区域）赋予了更高的重要性，而权重较低的通道则对应于背景或低置信度的特征，这些特征被有效抑制了。这些结果表明，全局上下文注意力模块动态地平衡了整个特征空间中不同语义通道的贡献，从而增强了跨区域的全局特征聚合，并为最终的分割结果提供了更稳定的语义支持。

除了在Apollo数据集上进行的实验外，我们还在一个包含更复杂和具有挑战性场景的自收集数据集上评估了该模型，例如夜间环境和能见度低的雾天条件。推理结果如图11所示。如图所示，即使在不利的光照和天气条件下，MSC-Net也能够准确识别车道边界和语义类别。在雾蒙蒙的高速公路场景中，尽管对比度降低且结构线索模糊，模型仍能清晰地划分车道标记。同样，在夜间城市场景中，它能够成功区分车道区域和由人工照明及阴影变化引起的背景干扰。图11展示了自收集数据集中具有代表性的挑战性场景的语义分割结果：(a) 来自自收集数据集的夜间道路场景的分割结果；(b) 来自自收集数据集的雾天高速公路场景的分割结果。从图11的观察结果可以得出，所提出的方法不仅受益于特征级的自适应全局语义重新加权，而且在现实世界的复杂场景中表现出了强大的鲁棒性和泛化能力。

5.2 消融研究
为了验证网络中每个注意力模块的贡献，在Apollo数据集上进行了消融研究，结果如图3所示。“w/o”表示移除了相应的模块。可以观察到，移除局部窗口注意力模块会导致最显著的性能下降，这表明该模块在捕获细粒度细节和边界特征方面起着关键作用。表3显示了在Apollo数据集上对MSC-Net进行的消融研究。当分别移除扩张多尺度注意力模块和全局上下文注意力模块时，mIoU和ACC都有不同程度的下降，这表明这些模块对于跨尺度上下文建模、全局语义理解和长距离依赖关系的捕捉有贡献。为了进一步验证具有可互换架构的模块化设计，我们还将MSC-Net与ResNet架构进行了比较，详细的比较结果在附录B中提供。由于推理速度高度依赖于硬件和软件配置，我们主要依赖于参数数量和FLOPs作为与硬件无关且可复制的效率指标。

5.3 比较实验
为了验证所提出网络优化的有效性，我们进行了广泛的对比实验，与SegFormer和DeepLab（作为基准网络）进行了比较。这些代表性方法以及所提出的MSC-Net的验证曲线如图13所示。表4显示，所有结果都是基于五次独立运行（使用不同的随机种子）的平均值±标准差。MSC-Net在mIoU、wIoU、ACC和class-ACC方面的得分分别为38.8%、97.8%、98.4%和84.2%。与DeepLab相比，MSC-Net的mIoU高出3.3个百分点（38.8%对比35.5%），同时将计算复杂度从85.1 GFLOPs降低到了69.7 GFLOPs。该模型包含40.8 M个参数，少于SegFormer（47.2 M）和DeepLab（43.0 M），表明在分割精度和计算成本之间实现了相对平衡的权衡。FLOPs是在输入分辨率为512 × 512和批量大小为1的情况下计算得出的。由于Mask2Former缺乏部署级别的优化，因此没有报告FPS。由于推理速度高度依赖于硬件和软件配置，我们主要关注理论复杂性的比较。

6. 讨论
本研究在与DeepLabV3+和SegFormer相比时，展示了在Apollo数据集和我们自构建的数据集上mIoU和ACC的适度提升。我们将这些结果解读为边界连续性和上下文一致性的一致改进，同时保持了具有竞争力的分割精度，而不是作为现有方法的替代方案。尽管定性结果表明边界更加平滑，但在极端照明或不良天气条件下，性能仍可能下降，这反映了仅依赖单目RGB输入的固有限制。此外，多分支注意力设计与基于轻量级CNN的模型相比引入了额外的计算开销，其实时适用性仍依赖于具体的硬件平台和部署设置。从方法论的角度来看，轻量级混合模型（例如LETNet和RTFormer）主要关注实时效率，而高分辨率Transformer架构（例如HRViT和HRFormer）则专注于在架构层面增强多分辨率特征表示。Mask2Former及相关框架采用了基于查询的掩码分类范式。相比之下，MSC-Net采用了模块化的MCMA组件进行结构化的多尺度上下文聚合，同时保持了逐像素的预测方式。总体而言，MSC-Net可以被视为一种互补的架构选项，它在实际计算约束下强调了多尺度融合和边界细化。

7. 结论
本文提出了MSC-Net，这是一种用于复杂道路场景中语义分割的多尺度上下文感知网络。通过整合局部窗口注意力、扩张多尺度区域注意力以及全局上下文分支，所提出的框架能够在可控的计算预算下实现从细粒度的局部细节到全局语义的特征建模。在Apollo数据集和结合自收集数据集的混合训练设置上的实验表明，MSC-Net相对于代表性基线模型实现了持续的改进。尽管取得了这些令人鼓舞的结果，但仍需认识到几个限制。首先，所提出的多分支注意力设计不可避免地引入了额外的计算开销 compared to 纯粹的卷积型轻量级模型，其实时适用性取决于目标硬件和部署设置。其次，尽管该模型在Apollo和我们自己的数据上进行了评估，但不同域之间的分布变化仍可能影响性能，更广泛的跨数据集验证将进一步强化这些结论。第三，当前框架依赖于单目RGB输入，在极端照明或恶劣天气条件下可能不够稳健，此时时间线索或多模态感知可能会有所帮助。未来的工作将集中在面向部署的轻量级优化上，提高跨域鲁棒性，纳入动态可学习的扩张率，并探索多模态感知扩展（例如图像-雷达融合），以在具有挑战性的条件下提高可靠性。

热点排行