基于光谱驱动的分层学习网络在航空发动机缺陷分割中的应用谢一宁（Yining Xie）沈敖琪（Aoqi Shen）齐浩晨（Haochen Qi）赵静（Jing Zhao）李建鹏（Jianpeng Li）潘西春（Xichun Pan）张安龙（Anlong Zhang）

《Computation》：A Spectrum-Driven Hierarchical Learning Network for Aero-Engine Defect Segmentation Yining Xie, Aoqi Shen, Haochen Qi, Jing Zhao, Jianpeng Li, Xichun Pan and Anlong Zhang

【字体：大中小】 时间：2026年04月28日 来源：Computation 1.9

编辑推荐：

　　摘要航空发动机缺陷在复杂的金属纹理下通常表现出微观尺度和高频特性，这使得精确分割变得困难。大多数现有的像素级方法依赖于空间域建模，缺乏频域解耦。因此，高频细节很容易被低频背景信息掩盖。此外，重复的下采样削弱了细粒度结构的表示，导致边界定位不准确和鲁棒性有

　　摘要航空发动机缺陷在复杂的金属纹理下通常表现出微观尺度和高频特性，这使得精确分割变得困难。大多数现有的像素级方法依赖于空间域建模，缺乏频域解耦。因此，高频细节很容易被低频背景信息掩盖。此外，重复的下采样削弱了细粒度结构的表示，导致边界定位不准确和鲁棒性有限。为了解决这些问题，提出了一种基于频谱的分层学习网络用于航空发动机缺陷分割。首先，使用离散余弦变换构建了一个双带频谱模块，以分离高频和低频成分，为网络提供稳定且物理意义明确的频域先验。其次，设计了一个细节引导模块，其中高频特征适应性地指导跳过连接，补偿编码过程中的信息损失并改善边界恢复。此外，还开发了一个低频驱动的区域感知建模模块。内部缺陷区域、边界区域和背景区域被分层建模。动态超核生成机制执行区域敏感的卷积建模，提高对复杂结构变化的适应能力。在Turbo19和NEU-Seg数据集上的广泛实验表明，所提出的方法能够产生准确的缺陷边界，mIoU分数分别达到89.82%和91.44%，比第二种最佳方法分别提高了5.22%和4.42%。

1. 引言
航空发动机是飞机的核心部件和动力来源，其运行状态直接关系到飞行安全和维护可靠性。在运行过程中，发动机部件长时间暴露在高温、高压和高速条件下，容易导致表面出现裂纹、划痕和撕裂等缺陷。因此，及时检查航空发动机对于维持发动机和飞机的正常运行至关重要。内窥镜已成为识别航空发动机内部潜在缺陷的重要工具。随着深度学习的发展，缺陷分割方法已成功应用于各种工业场景，并逐渐引入到内窥镜检查任务中。该领域已有许多成熟的研究报告[1,2,3,4]。然而，在实际的航空发动机检查场景中，复杂的金属纹理背景、微观尺度的缺陷目标以及模糊的边界仍然使得现有方法难以实现满意的背景抑制、细节恢复和稳定的特征表示[5,6]。
目前，由于工业缺陷通常表现出较大的尺度变化和模糊的边界，大多数研究集中在两个方向：多尺度特征融合和边界增强特征学习。多尺度特征融合通过整合不同层次或感受野的特征信息来提高模型表示和检测不同大小缺陷的能力[7,8,9]。边界增强特征学习通过加强缺陷轮廓周围的特征响应和区分能力来提高缺陷边缘的定位准确性和分割质量[10,11]。尽管上述方法在一定程度上提高了模型感知不同尺度目标的能力，但它们仍然主要依赖于空间域信息，并且对频域特征的使用有限。频域表示可以有效分离图像中的详细信息和全局结构信息，这对于区分缺陷和背景非常重要。同时，现有方法通常假设图像区域之间的特征分布相对均匀。它们缺乏对不同区域之间显著差异的建模能力。因此，很难适应缺陷内部、边界和背景区域之间的复杂结构变化。
然而，现有方法仍然存在以下问题：
在航空发动机缺陷检测中，缺陷通常表现为高频细节，容易被复杂的低频背景干扰。然而，现有方法没有明确解耦高频和低频信息。结果，模型容易被主要频率成分主导，小缺陷无法以稳定的方式表示[5,12]。
航空发动机缺陷通常尺寸较小，形状细长，边界模糊。在编码器的多次下采样操作过程中，高频细节信息（如裂纹边缘和小划痕的轮廓）容易减弱或丢失。因此，解码器描述缺陷边界和小缺陷的能力有限[13,14]。
缺陷内部、边界区域和背景区域在外观、纹理和结构上存在显著差异。传统的分割网络通常使用统一的参数进行建模。因此，很难同时实现准确的缺陷定位和有效的背景抑制。特别是在复杂的金属纹理背景下，容易发生误检测[9,15]。
为了解决这些问题，提出了一种新的分层学习模型用于航空发动机缺陷分割。它由三个关键模块组成：双带频谱模块、细节引导模块和区域感知建模模块。首先，双带频谱模块通过离散余弦变换将输入图像映射到频域，明确分离高频和低频成分。高频成分主要包含缺陷的边缘和纹理信息，而低频成分反映了图像的全局结构和背景信息。其次，细节引导模块使用高频频谱特征生成引导参数。这些参数用于适应性地指导编码器产生的跳过连接特征。这样，在解码过程中逐步恢复了与缺陷相关的细节表示。最后，区域感知建模模块以低频特征为输入，生成区域级掩码，并构建区域敏感的分支，对缺陷内部、边界区域和背景区域进行分层建模。同时，低频驱动的超核生成机制为每个解码阶段动态提供区域敏感的卷积核。这种设计使网络能够根据不同区域的结构特征进行自适应特征提取，从而提高模型处理复杂外观变化和不同运行条件的能力。
本文的主要贡献总结如下：
设计了一个双带频谱模块。通过离散余弦变换将缺陷图像映射到频域，并明确将频率信息分为高频和低频成分。这样实现了频域特征的解耦，为后续网络提供了更具区分性的频域特征表示[16,17]。
设计了一个细节引导模块。通过跳过连接，增强了空间域特征图，并减少了通常由下采样引起的信息损失[18,19]。
设计了一个区域感知建模模块。利用低频成分中包含的全局结构稳定性作为区域建模的基础。网络被引导对不同区域采用不同的建模策略，显著提高了复杂场景下航空发动机缺陷检测的定位准确性和结构一致性[20,21]。
本文的其余部分组织如下。第2节描述了相关工作。第3节介绍了所提出方法的细节。第4节报告并讨论了在两个数据集上的实验结果，以证明所提方法的优越性。最后，第5节提供了总体结论。

2. 相关工作
本节从两个方面回顾了相关研究，即航空发动机视觉检测和像素级缺陷分割，并分析了它们与本工作任务的相关性和局限性。

2.1 航空发动机视觉检测
计算机视觉的进步促进了从传统视觉检测方法向基于深度学习的航空发动机检测技术的转变。Yang等人[22]提出了一个新颖的无损缺陷检测网络NDD-Net，用于构建端到端的缺陷分割框架。通过基于注意力的特征融合和残差密集建模，增强了微缺陷的表示能力。Tsai等人[23]引入了一种不需要人工注释的两阶段深度学习方法。使用CycleGAN自动合成和标记缺陷像素，然后用生成的样本训练U-Net在具有纹理的表面上进行像素级缺陷检测。Xu等人[24]提出了一个基于语义分割的缺陷检测系统。开发了一个端到端的语义分割网络Feature Pyramid Network–ResNet-34用于缺陷检测，实验表明该架构对缺陷特征提取和融合有效。Yang等人[25]提出了一个基于Transformer架构的改进的边缘引导和通道增强网络。使用Segment Anything Model的全局边缘信息指导学习，同时通道混合模块提高了特征捕获能力。Song等人[26]设计了一个基于可变形卷积网络的新特征提取模块。使用可变形卷积结构从不同形状的叶片中提取特征，并引入了通道注意力模块，使网络能够关注表面异常。Utomo等人[27]引入了R2U-Net，系统地整合了残差连接以增强梯度传播。递归卷积单元用于细化航空发动机叶片缺陷检测的上下文信息。Liu等人[28]提出了一种基于YOLOv11的改进检测算法。引入了上下文引导的大核注意力和旋转检测头。通过双重结构优化，提高了检测效率和准确性。Wang等人[29]提出了一种基于三维点云的叶轮叶片缺陷检测方法。通过点云分割和体素下采样减少了计算复杂性。融合了法线矢量和快速点特征直方图等多级局部特征，并使用Fuzzy C-Means聚类准确识别复杂叶轮叶片上的划痕缺陷。尽管这些方法取得了显著的成功，但分割目标的形状变化限制了它们直接应用于我们的任务。

2.2 像素级缺陷分割
像素级缺陷分割是指对图像中每个像素进行分类，以便能够精确区分缺陷区域和背景区域，并准确描述它们的轮廓。Yang等人[30]提出了一个基于编码器-解码器架构的端到端像素级缺陷分割网络。使用残差注意力主干网络增强目标区域的特征表示，并引入了一个双向ConvLSTM模块来优化跳过连接并学习长距离空间上下文。Zuo等人[31]提出了一种集成多尺度特征、全局映射和注意力机制的像素级缺陷分割网络，以提高不同大小缺陷的检测和分割能力。Qi等人[32]提出了一种一键交互式缺陷分割方法。用户点击被编码为超像素引导的高斯热图并嵌入网络中进行建模。结合定制的主干网络和贝叶斯优化细化策略，实现了复杂缺陷的有效和准确分割。Meng等人[33]提出了一种基于Mask R-CNN的像素级缺陷检测方法。引入了基于注意力的特征融合和改进的分类器头，有效抑制背景干扰并提高缺陷分割精度。Qi等人[34]提出了一种创新的半监督缺陷分割方法。在该框架中，三个平行的自监督机制与半监督学习框架结合，使用有限的标记样本改进了缺陷的语义分割。Zhang等人[35]提出了一种基于U-Net的自适应特征细化网络。使用预训练的EfficientNet-B0作为编码器，并引入了AFR模块来增强通道和空间特征建模，实现了表面缺陷的精细像素级分割。Ma等人[36]提出了一种基于语义先验的缺陷感知网络。通过语义先验挖掘、缺陷增强感知和全局信息提取模块的协同建模，实现了在复杂背景下的精确感知和高效检测小缺陷。Sun等人[37]提出了一种基于轻量级Transformer的像素级轮胎缺陷检测方法。使用双路径编码器和多尺度空间交叉变换器解码器来建模局部和全局像素依赖性。尽管这些方法取得了显著的成功，但现有的像素级缺陷分割方法在频域特征解耦和保留下采样过程中经常丢失的细节方面仍存在局限性。

3. 材料
本节介绍了本研究中使用的材料，包括航空发动机内窥镜检测系统、自收集的Turbo19数据集和公共的NEU-Seg数据集。

3.1 航空发动机内窥镜检测系统
本研究中使用的Turbo19数据集图像是通过NTS500工业内窥镜在真实的航空发动机检测过程中收集的。该设备可以访问航空发动机的复杂内部区域，并获取关键组件（如高压多级压缩机）的近距离图像，从而为潜在缺陷分析提供视觉信息。与常见的工业表面图像相比，航空发动机内窥镜图像通常具有更复杂的视觉特征。一方面，金属表面通常包含复杂的纹理、强烈的反射和照明变化，这可能引入显著的背景干扰。另一方面，缺陷目标通常较小、细长，边界模糊，并且它们与周围背景的对比度较低。这些因素共同增加了精确缺陷分割的难度，使得这项任务在实际应用中更具挑战性。图1展示了航空发动机内窥镜检查过程。通过这一检查系统，可以非破坏性地观察发动机的复杂内部区域，为后续的缺陷识别和分割提供图像支持。图1. 航空发动机内窥镜检查的示意图。

3.2. Turbo19数据集
Turbo19数据集是我们评估中精心挑选的，包含5896个从航空发动机中收集的缺陷样本。所有样本都是在对抗航空发动机内部高压多旋翼压缩机的详细检查过程中收集的（见图2）。Turbo19数据集采用了像素级别的注释方法。首先，每张图像由两位具有工业图像分析研究经验的注释者手动标记。注释重点关注缺陷轮廓和细小的结构细节。在初步标记阶段之后，所有样本都经过了交叉检查，不一致的情况由专家共同审查。一位具备航空发动机检查领域知识的高级研究人员进行了最终的质量控制并解决了模糊的情况。自由类别的图像还额外验证了在采用的检查标准下没有可见的缺陷。该数据集包括以下缺陷类别：

图2. Turbo19数据集的视觉示例。
卷曲：这种缺陷的特点是轮廓变形，通常由高速旋转时的空气动力或材料脆性引起。
凹陷：这种缺陷表现为表面坑洞，通常由发动机运行期间的外来物体（如小石头）造成。
划痕：这种缺陷的特点是线性痕迹，通常由与磨料材料的接触产生。
撕裂：这种缺陷表现为材料表面的撕裂，通常由局部应力集中或外部冲击引起。
自由：这一类别包含没有可见缺陷的图像，为本研究提供了参考基线。

3.3. NEU-Seg数据集
为了进一步评估所提出方法在不同工业表面缺陷场景下的分割能力，还在NEU-Seg数据集上进行了实验。NEU-Seg是一个广泛使用的工业表面缺陷分割公共数据集，包含1800张热轧钢带表面缺陷图像及其对应的像素级分割注释。该数据集涵盖了六种典型的钢表面缺陷类型，包括卷入氧化皮（RS）、斑块（Pa）、裂纹（Cr）、凹坑表面（PS）、夹杂物（In）和划痕（Sc）。数据集中的图像在缺陷形态、氧化皮程度、纹理复杂度和背景干扰方面存在很大差异，有效反映了真实工业检测环境的复杂性。在我们的实验设置中，数据集被划分为训练集和测试集，比例分别为70%和30%。所有图像的预处理流程与Turbo19数据集使用的一致（见表1），以确保实验的公平性和可比性。表1. Turbo19数据集的详细统计信息。

4. 提出的方法
本节介绍了所提出的基于频谱的层次化学习网络。首先介绍整体框架，然后详细描述了双带频谱模块、细节引导模块、区域感知建模模块和损失函数。

4.1. 概述
提出了一个基于频谱的层次化学习网络，用于航空发动机缺陷分割。目标是实现在复杂工业环境中对小缺陷的精确定位和分割。该框架充分利用了频域信息和区域结构差异，对缺陷内部区域、边界区域和背景区域进行了差异化建模。如图3所示，整个流程首先对输入图像进行频域分析。原始图像被转换为两个互补的分支：高频分支和低频分支。这两个分支分别用于表示细节信息和全局结构信息。接下来，高频特征通过细节引导机制整合到网络的跳跃连接中，以补偿编码阶段重复下采样导致的细粒度信息损失。同时，低频特征用于驱动区域感知建模模块。在解码阶段，生成区域敏感的动态卷积核以适应不同区域之间的结构差异。整个框架平衡了分割精度和模型稳定性，为航空发动机内窥镜图像中的缺陷检测提供了有效的解决方案。图3. 所提框架的概览。该框架包括三个模块：双带频谱模块、细节引导模块和区域感知建模模块。频谱模块将输入信号分为高频特征和低频特征。高频特征指导跳跃连接以恢复细节信息，而低频特征生成用于缺陷内部、边界和背景区域分层建模的区域敏感超核。

4.2. 双带频谱模块
在航空发动机缺陷检测任务中，表面缺陷（如裂纹、划痕和局部结构异常）通常包含较强的高频频谱特征。这些缺陷在频域中通常表现为高频成分，而背景区域主要集中在低频部分。为了有效区分缺陷和背景，本研究提出了一个双带频谱模块。该模块明确将图像的频域信息分为两个互补的部分：高频成分和低频成分。这样，缺陷区域和背景区域可以分别进行建模。图像通过离散余弦变换（DCT）转换为不同的频带，从而以紧凑的形式高效表示图像。为了保留变换后谱中的局部信息，变换不直接应用于整个图像，而是先将图像分割成块，然后在每个块内独立计算频谱变换。给定一个输入图像，首先将其分割成不重叠的块，每个块的大小为[此处缺失具体数值]像素。之后，对每个块应用离散余弦变换（DCT）生成相应的频谱。在每个块的频谱中，64个系数对应于64个特定的频率成分。为了便于后续的过滤过程，需要分离不同的频率成分并在每个块内对相同频率成分进行分组。因此，需要对频谱进行重塑。具体来说，提取所有块中相同位置（即相同频率成分）的对应元素并聚合到一个通道中。这样，就得到了一个新的频谱图，其通道数量是原始频谱的64倍，同时保持了相同的空间分辨率。每个通道包含一个特定的频率成分。因此，可以通过选择适当的通道来进行过滤，从而容易地分离由该张量表示的频率成分。在生成的频谱图像中，每个通道对应一个独立的频率成分。因此，可以通过通道过滤操作实现频率分解。相应的公式如下所示（方程（1）–（3）：
(1) (2) (3)
这里，⊙表示哈达玛积。和分别代表高频掩模和低频掩模。和分别代表高频频谱特征和低频频谱特征。在该模块中，高频频谱特征用于后续的网络处理，以增强缺陷的细节特征，特别是边界和纹理的预测。相比之下，低频频谱特征帮助网络保持背景区域的一致建模并抑制背景干扰。通过这种频域解耦策略，网络能够更好地处理不同类型的表面缺陷，从而提高检测性能。

4.3. 细节引导模块
在编码阶段的多次下采样操作中，上述的高频细节可能会被削弱或丢失。因此，解码器可能无法充分描述缺陷边界和小缺陷。为了解决这个问题，设计了一个细节引导模块，将高频频谱信息引入跳跃连接并进行空间特征的适应性细节补偿。细节引导模块遵循频域引导策略。双带频谱建模模块提取的高频频谱特征被用作条件信息来生成引导参数。然后将这些参数应用于跳跃连接中的空间特征表示。这样，模型可以有选择地增强与缺陷相关的细节，同时保持原始特征结构，从而提高边界区域和小缺陷区域的分割结果表示能力。设[此处缺失具体符号]表示来自编码器的空间域跳跃连接特征图，其分辨率与相应的解码器层一致。首先，高频频谱特征通过轻量级变换映射，生成通道级特征引导参数（见方程（4）和（5）：
(4) (5)
其中[此处缺失具体符号]和[此处缺失具体符号]分别表示由卷积或等效线性映射实现的参数生成函数。为了确保训练稳定性并强调细节补偿，采用了残差引导公式来重新校准跳跃连接特征（见方程（6）：
(6)
这里，⊙表示哈达玛积。这种公式在保留原始空间特征表示的同时，引入了由高频频谱信息引导的自适应调整。因此，有效地增强了细粒度缺陷细节和边界结构。细节引导模块嵌入在编码器和解码器之间的跳跃连接中。对于每个解码器块，首先通过细节引导模块处理相应尺度的跳跃连接特征，进行高频引导的细节增强。然后将得到的特征Fout与当前解码器特征融合，作为该解码器块的输入。这样，高频细节信息可以在解码过程中逐步传播，并与低级语义信息协同作用，从而提高缺陷边界区域和小尺度结构区域的分割精度。通过将高频引导特征机制引入跳跃连接，可以有效地补偿编码阶段下采样导致的细节信息损失。与传统的注意力机制相比，该模块不依赖于复杂的显式权重结构，而是通过频率域先验驱动的自适应重新校准来实现空间特征。因此，模型保持轻量级，同时增强了其在工业缺陷分割任务中对细粒度结构和边界信息的建模能力。

4.4. 区域感知建模模块
提出了一个低频驱动的区域感知建模模块来替代解码器中的标准权重共享卷积。这种设计提高了模型适应工业表面外观变化和操作条件变化的能力。如图4所示，该模块包括两部分：动态区域感知建模和低频驱动的超核生成。首先，在层次化监督的指导下，动态区域感知建模模块学习表示缺陷内部区域、缺陷边界区域和背景区域的自适应区域级掩模。这些区域级掩模用于构建独立的区域感知分支。这样，不同区域的特征表示可以分层建模。在每个解码器阶段，明确描述了不同区域的结构特征，实现了区域感知的特征建模。其次，为了更好地适应不同工业表面纹理和成像条件引起的外观变化，利用了输入图像和最后一个编码层的低频频谱特征。设计了一个低频驱动的超核生成模块来生成一组区域敏感的超核。这些超核在每个解码器阶段动态映射，并用于细化区域感知分支中的层次化特征表示。因此，可以实现区域结构一致性和上下文关系的自适应建模。图4. 区域感知建模模块的示意图。

4.4.1. 动态区域感知建模
为了实现区域级特征建模，动态区域感知建模模块使用区域级掩模将特征表示分为三个具有不同结构特性的区域：缺陷内部区域、缺陷边界区域和背景区域。根据这些区域的结构特征，应用区域敏感的超卷积核分别对每个区域的特征进行建模。这样，在解码阶段可以明确描述区域之间的结构差异。动态区域感知建模模块的输入特征图表示为[此处缺失具体符号]。首先从特征图中生成区域级掩模[此处缺失具体符号]。然后，将[此处缺失具体符号]与[此处缺失具体符号]相乘，得到三个区域：缺陷内部区域、缺陷边界区域和背景区域，分别表示为[此处缺失具体符号]。最终，每个区域都与区域敏感的超核进行卷积，该超核是由低频驱动的超核生成模块生成的，以产生最终输出。公式显示在方程（7）-（9）中：（7）（8）（9）为了监督上述区域预测，进一步从原始的二值缺陷注释G构建了区域级的真实掩模。首先，计算缺陷区域和背景区域的距离变换图，分别表示为和中。这里，表示从内部缺陷像素到最近边界的距离，而表示从背景像素到缺陷边界的距离。设（10）缺陷的内部边界区域和外部边界区域分别由方程（11）和（12）定义：（11）（12）其中表示边界比例系数，用于控制边界区域的宽度，表示指示函数[38,39]。此外，为了保持缺陷轮廓的连续性，引入了一个轮廓一致性项。最终的缺陷边界区域由方程（13）定义：（13）基于此，缺陷内部区域和背景区域分别由方程（14）和（15）定义：（14）（15）这样，区域级监督标签由三部分组成，即缺陷边界区域、缺陷内部区域和背景区域。这三个区域掩模被连接起来以匹配网络输出，并共同用于计算区域级监督损失。这种设计允许边界宽度适应目标规模，从而更稳定地建模缺陷内部、边界过渡区和背景区域之间的结构差异。4.4.2. 低频驱动的超核生成基于光谱的超核生成器为所有解码器层生成一组超核。输入包括图像的低频成分和编码器最终阶段的输出。从低频特征的去偏频率分解中获得的线性投影被视为空查询（Q），这有助于减少样本差异的影响。查询的数量设置为与层次区域的数量相同。相比之下，Transformer中的键（K）和值（V）是从编码器中的低级特征图生成的。这个特征图通过位置编码（PE）和投影来提供全局空间域信息和空间位置信息。由于层次划分包含三个语义区域，即缺陷内部区域、缺陷边界区域和背景区域，因此构建了三个可学习的区域查询，每个区域一个。每个查询对应一个区域原型，并用于生成该特定区域的卷积核。然后通过一个全连接层将Transformer的输出调整为所需的卷积核维度，如方程（16）所示：（16）Transformer输出三个特定于区域的潜在嵌入，这些嵌入进一步被投影为三个区域敏感的超核，分别表示为、和。这三个核分别对应缺陷内部区域、缺陷边界区域和背景区域。因为解码器包含多个阶段，所以生成的超核张量进一步根据解码器阶段和区域类别进行解析。具体来说，对于第s个解码器阶段，分配一个核三元组，其中三个核分别用于缺陷内部区域、缺陷边界区域和背景区域。然后将这些核应用于动态区域感知建模模块中对应的区域特征进行卷积。通过这种方式，核的分配既具有区域特异性，也依赖于阶段，使解码器能够针对不同特征尺度对不同区域进行自适应卷积建模。这样，每个解码器阶段都可以使用与当前特征尺度和区域结构更匹配的区域敏感核，从而改进缺陷内部、边界过渡区和背景区域的自适应建模。其关键架构创新在于一种低频驱动的、层次监督的、阶段依赖的超核生成机制。所提出的模块使用低频光谱先验和编码器特征来生成区域敏感的超核，同时显式学习和监督缺陷内部、边界和背景区域。生成的超核进一步以区域特定和解码器阶段依赖的方式进行分配，实现频率引导的层次感知超卷积。4.5. 损失函数最终损失函数包括两部分：分割监督损失和区域级掩模损失。这两种损失共同从像素级别和区域级别优化网络。公式显示在方程（17）中：（17）（a）分割结果的损失：分割损失包括焦点损失和交并比（IoU）损失。这两种损失衡量预测分割结果Y与真实值之间的像素级别和区域级别差异。它们指导网络学习目标区域的更准确表示。这种损失提高了模型在复杂背景下单个目标定位的能力，增强了边界细节的表示，并提高了分割结果的整体结构一致性和稳定性。分割损失定义如下（方程（18）：（b）区域级掩模的损失：区域级掩模损失定义为均方误差（MSE）损失。它用于约束预测区域掩模与真实区域掩模在连续分布方面的一致性。这种损失指导网络学习缺陷内部区域、边界过渡区域和背景区域之间的空间结构关系，从而提高每个区域内的表示一致性。损失函数定义如下（方程（19）：总之，分割监督损失和区域级掩模损失的结合形成了一个统一且有效的优化目标。每个组件在引导模型朝其相应的学习目标方面发挥着特定的作用。通过适当设置平衡参数，模型可以在训练期间优化分割准确性和区域-结构表示。所提出方法的整个过程，即基于光谱的层次学习网络（算法1），描述如下。算法1：基于光谱的层次学习网络输入：输入图像x初始化：从x生成光谱图。步骤1：双带光谱分解对输入图像x应用DCT；将分解为高频特征和低频特征。步骤2：编码器特征提取将输入图像x输入编码器；提取多尺度编码器特征。步骤3：细节引导的特征增强使用高频特征来引导跳跃特征；在跳跃连接中增强细微的缺陷细节。步骤4：区域感知核生成使用低频特征生成区域敏感的核；将核分配给缺陷内部、缺陷边界和背景区域。步骤5：层次区域建模和解码对缺陷内部、边界和背景进行层次建模；使用生成的区域敏感核解码特征；获得分割结果Y。输出：最终分割图Y。5. 实验和结果分析本节介绍了实验设置和评估指标，然后报告了比较结果、消融研究和进一步讨论，以全面验证所提出方法的有效性。5.1. 实验设置5.1.1. 实验细节实施细节：所有实验均在PyTorch 2.8.0中实现，并在NVIDIA RTX 3080 Ti GPU上进行。数据集中的图像被归一化并调整大小为像素。使用批量大小8以促进稳定学习。采用了自适应学习率策略。初始学习率设置为，第50个时代时减少了10倍。模型训练了100个时代。为了确保实验结果的可靠性，每个实验都使用了不同的随机种子重复了五次，并报告了每种方法的平均性能。5.1.2. 评估指标为了评估模型的性能，采用了五个常用的语义分割指标：平均交并比（mIoU）、平均像素精度（mPA）、精确度、召回率和F1分数。这些指标的定义如下：（20）其中C表示类别数量，表示真正例像素的数量，表示假正例像素的数量，表示假负例像素的数量。（21）其中和如上所定义。（22）其中TP表示真正例预测的数量，FP表示假正例预测的数量。（23）其中TP和FN如上所定义。（24）其中精确度和召回率如上所定义。5.2. 对比方法和公平性比较实验包括七种分割方法，分为三类以实现全面评估。（1）经典架构：U-Net [40] 和 HarDNet-MSEG [41]。（2）CNN–Transformer架构：Polyp-PVT [42]。（3）边界感知架构：PraNet [43]、SANet [44]、CFA-Net [45] 和 CCLDNet [46]。在实验中，所有比较方法都使用它们的默认或官方推荐的参数设置进行实现，没有额外的超参数调整。此外，所有方法都在相同的的基本实验协议下进行训练，包括图像归一化和调整大小为像素，批量大小为8，初始学习率为，以及100个训练时代，以确保公平和无偏的比较。5.3. 结果和比较5.3.1. 定性分析为了全面评估所提出方法的有效性，分析了定量指标和可视化结果。首先，在Turbo19和NEU-Seg数据集上的可视化结果（见图5和图6）显示，不同方法在缺陷边界表示、细节恢复和复杂背景抑制方面存在明显差异。HarDNet-MSEG总体上产生了相对稳定的分割结果，但在细小裂纹和边界过渡区域出现了过度平滑。U-Net缺乏多尺度和频域建模能力，这在复杂金属纹理背景下导致漏检和误检。Polyp-PVT具有强大的全局建模能力，但其恢复局部细节的能力有限。CCLDNet在大规模缺陷上表现良好，但在复杂背景区域会出现误分割。PraNet显示出强烈的边界感知能力，但区域内的结构一致性不足。SANet显著增强了边界表示，但在非常小和细的缺陷中经常出现断裂。CFA-Net对低对比度缺陷的鲁棒性较弱，并且存在明显的漏检。相比之下，所提出的方法在两个数据集上产生了边界更清晰、结构更完整、背景抑制更强的分割结果。这些结果表明了在表示小缺陷和适应复杂工业场景方面的更强能力。为了提供更直观的局部预测细节比较，添加了代表性挑战区域的附加颜色图可视化，如图7所示。这些结果更清楚地揭示了方法在边界定位、弱缺陷激活和背景抑制方面的差异。图5. Turbo19数据集上的预测结果。（a）图像。（b）真实值。（c）我们的方法。（d）MSEG。（e）U-Net。（f）Polyp-PVT。（g）CCLDNet。（h）PraNet。（i）SANet。（j）CFA-Net。图6. NEU-Seg数据集上的预测结果。（a）图像。（b）真实值。（c）我们的方法。（d）MSEG。（e）U-Net。（f）Polyp-PVT。（g）CCLDNet。（h）PraNet。（i）SANet。（j）CFA-Net。图7. NEU-Seg数据集上的颜色图可视化。（a）缩放后的输入图像。（b）真实值。（c）我们的方法。（d）MSEG。（e）PraNet。颜色图响应为比较边界定位、缺陷激活和背景抑制提供了更直观的基础。5.3.2. 定量讨论表2和表3报告了实验的定量结果，包括五个独立试验中五个评估指标的平均值和方差。可以观察到，所提出的方法在所有指标上均取得了最佳的平均性能。例如，在Turbo19数据集上，与第二好的方法相比，所提出的方法将mIoU提高了5.22%，并将mPA分数提高了3.84%。在NEU-Seg数据集上，与第二好的方法相比，所提出的方法将mIoU提高了4.42%，并将mPA分数提高了4.44%。此外，每个指标的方差保持在可接受范围内，表明模型性能稳定。这些结果支持了所提出方法在缺陷检测方面的有效性和稳定性。此外，定量证据与定性观察结果一致，并进一步确认了所提出方法在航空发动机缺陷检测任务中的有效性。表2. 在Turbo19数据集上与最先进方法的定量比较。表3. 在NEU-Seg数据集上与最先进方法的定量比较。5.4.消融研究
为了验证双频谱模块（模块1）、细节引导模块（模块2）和区域感知建模模块（模块3）的有效性，以及它们之间的关系，系统地从所提出的方法中移除了特定的组件。构建了四种消融变体，分别称为变体1、变体2、变体3和变体4，具体描述如下：

- **变体1**：仅从所提出的方法中移除了双频谱模块。
- **变体2**：仅从所提出的方法中移除了细节引导模块。
- **变体3**：同时从所提出的方法中移除了双频谱模块和细节引导模块。
- **变体4**：仅从所提出的方法中移除了区域感知建模模块。

为了确保实验的公平性，所有消融变体都在与所提出的方法相同的实验设置下进行了测试。评估在Turbo19数据集和NEU-Seg数据集上进行。

在表4和表5中，分别移除了双频谱模块、细节引导模块和区域感知建模模块，以评估每个组件对整体性能的贡献。在Turbo19数据集上，当移除双频谱模块（变体1）时，mIoU从89.82%下降到83.99%，表明高频和低频信息的频域解耦在提高分割精度方面起着关键作用。当移除细节引导模块（变体2）时，mIoU降至84.20%，证明高频细节补偿机制对于恢复下采样过程中丢失的边界信息至关重要。当同时移除双频谱模块和细节引导模块（变体3）时，性能进一步下降到83.58%，表明频域建模和细节引导提供了互补的优势。当移除区域感知建模模块（变体4）时，mIoU降至82.64%，这代表了最大的性能下降。这一结果表明，分层区域建模对于抑制复杂背景和保持结构一致性非常重要。在NEU-Seg数据集上也观察到了类似的趋势。完整模型的mIoU为91.44%，明显高于所有消融变体。这些结果验证了这三个提出的模块在不同工业缺陷场景下的有效性。总体而言，消融研究表明，双频谱建模提高了特征表示的区分能力，细节引导机制增强了边界恢复，而区域感知建模模块进一步增强了区域结构一致性和背景抑制。这三个模块的协同整合使所提出的框架能够实现稳定的性能和显著提高的分割精度。

表4. Turbo19数据集上的消融分析。
表5. NEU-Seg数据集上的消融分析。

这主要是因为设计的模块在不同特征层次上发挥着互补和平衡的作用。同时，所有实验结果都是三次独立运行的平均值，性能变化保持在较小范围内，进一步证明了模型的稳定性。

**5.5. 进一步讨论**
**平衡系数**：由于平衡系数是所提模型中的一个特定于方法的参数，因此在本节中单独分析了其效果，而不是通过调整比较方法来实现。为了进一步分析分割监督损失和区域级掩码损失之间的平衡系数的影响，系统地研究了权重参数。具体来说，将该参数从0变化到8，缩放因子为2，以评估不同权重策略对模型性能的影响。为了更好地理解平衡系数的影响，可视化了训练过程中该参数的变化。如图8所示，当该参数在较宽的范围内变化时，包括mIoU和mPA在内的关键评估指标的波动保持较小，整体性能保持稳定。这一现象表明，两个损失项在优化过程中保持了协同关系。分割损失主要限制了像素级的预测精度，并确保了缺陷区域的准确定位。相比之下，区域级掩码损失关注于建模缺陷内部、边界和背景之间的空间关系，从而提高了分割结果的结构一致性。当该参数过小时，区域级掩码提供的结构约束变弱，可能导致边界过渡区域的预测略微粗糙。相反，当该参数过大时，模型更加强调区域一致性，可能导致细小边界的过度平滑。尽管如此，整体性能变化仍然有限，表明所提出的网络对损失权重的变化具有良好的鲁棒性。这一结果进一步证实了区域感知建模目标和分割监督目标是互补的，而不是冲突的，从而确保了稳定的训练和可靠的分割性能。

**边界区域大小**：为了分析区域级掩码中边界区域比例对模型性能的影响，通过改变边界宽度进行了一组实验，同时保持所有其他训练参数不变。边界比率分别设置为1/16、1/8、1/4和1。如图9所示，随着边界比率的变化，模型性能显示出明显趋势。当比率从1/16增加到1/4时，mIoU逐渐提高，并在1/4时达到最高值。然而，当比率进一步增加到1/2和1时，性能开始下降。当比率较小时，边界区域仅占总区域划分的有限比例，因此其对训练目标的贡献相对较小，边界约束可能没有得到充分利用。当比率适度增加时，边界区域更积极地参与优化过程，有助于提高整体分割精度。但是，当比率过大时，边界区域占据了更多的像素，这可能会减少缺陷内部区域与背景区域之间的区分空间，从而影响整体模型性能。

**DCT块大小分析**：为了评估DCT块大小对分割性能的影响，进一步比较了3种设置，包括4×4、8×8和16×16。如图10所示，8×8配置在Turbo19和NEU-Seg数据集上都取得了最佳的整体性能。具体而言，mIoU在Turbo19数据集上达到了89.82%，在NEU-Seg数据集上达到了91.44%，高于使用4×4和16×16块时的性能。这一结果表明，8×8在局部空间灵敏度和频率表示能力之间提供了更合适的权衡。较小的块大小（如4×4）保留了局部信息，但其频率分辨率有限。相比之下，较大的块大小（如16×16）提供了较粗糙的局部频谱建模，可能在复杂背景下减弱小缺陷的表示能力。因此，在我们的方法中选择了8×8块大小。

**6. 结论**
本研究提出了一种基于频谱驱动的分层学习框架。该方法明确引入了频域信息，并将其与区域结构建模相结合，以实现稳定的表示和小缺陷的精确定位。在所提出的框架中，首先设计了一个双频谱模块。使用离散余弦变换来分解图像频谱，并将图像特征明确分为高频细节信息和低频结构信息。这样，为网络提供了物理意义上的频域先验。接下来，通过细节引导模块将高频频谱信息引入跳跃连接中。该模块自适应地补偿编码阶段下采样过程中丢失的细粒度信息，从而增强了缺陷边界和小结构细节的表示。此外，还提出了一个区域感知建模模块。低频特征用于驱动区域级结构建模，并采用动态超核生成机制来实现区域敏感卷积。这种设计使网络能够对缺陷内部区域、边界区域和背景区域进行差异化的特征建模。在两个数据集上的实验证明了所提方法的有效性，并表明其适用于航空发动机检查之外的其他工业检测任务。值得注意的是，移除每个单独模块所导致的性能下降相对相似。

热点排行