通过跨方向卷积和分层注意力机制对传输设备进行分类尹聪聪（Congcong Yin）张凯（Ke Zhang）张玉倩（Yuqian Zhang）朱中杰（Zhongjie Zhu）

《Electronics》：Transmission Equipment Segmentation via Cross-Directional Convolution and Hierarchical Attention Mechanisms Congcong Yin, Ke Zhang, Yuqian Zhang and Zhongjie Zhu

【字体：大中小】 时间：2026年04月17日 来源：Electronics 2.6

编辑推荐：

　　摘要电力传输设备的精准分割对于确保电网的安全运行至关重要，但实际应用面临着诸多挑战，包括保持输电线路的细长形态特征以及对复杂输电塔结构的精确边界定位。本文提出了一种新的分割方法，该方法在YOLO11框架内协同整合了双向卷积和多层注意力机制。所设计的C3x双向卷积模块

　　摘要电力传输设备的精准分割对于确保电网的安全运行至关重要，但实际应用面临着诸多挑战，包括保持输电线路的细长形态特征以及对复杂输电塔结构的精确边界定位。本文提出了一种新的分割方法，该方法在YOLO11框架内协同整合了双向卷积和多层注意力机制。所设计的C3x双向卷积模块在特征提取过程中采用了正交卷积操作，使得沿水平和垂直维度的特征响应能够独立增强。这种架构有效地捕捉到了细长目标连续的形态特征，同时减少了碎片化伪影。此外，提出的多层级联注意力（MLCA）模块采用了一种渐进式融合策略，结合了空间注意力和通道注意力，显著提升了网络提取多尺度语义信息的能力，同时保持了计算效率。这一设计特别有助于增强结构复杂目标的边界细节保持。在TTPLA数据集（包含4个类别的1232张图像）上的实验评估显示出了显著的性能提升：边界框检测的mAP@0.5达到了72.56%，掩码分割的mAP@0.5达到了68.37%，分别比基线YOLO11模型提高了2.97%和4.52%。掩码F1分数从67.85%提升到了71.76%，全面验证了所提方法在增强细长和形态复杂目标分割能力方面的有效性。这些结果证明了所提方法在实际的智能输电基础设施监控系统中的适用性。

1. 引言电力传输基础设施的精准分割，尤其是细长的输电线路和结构复杂的塔架，是确保现代电网安全稳定运行的基础技术[1]。随着中国特高压输电网络的迅速扩展和智能电网建设的进步，对输电走廊的自动化检测和智能监控的需求日益增强[2,3]。电力传输设备的形态特征带来了独特的分割挑战：输电线路呈现出极长的线性几何形状和极高的纵横比（通常超过100:1），同时占用的图像像素不到1%；而输电塔则具有复杂的三维格子结构[4,5]。这些独特特征，加上恶劣的环境条件（如异质自然背景、变化的光照和恶劣天气），给精确分割带来了显著阻碍[6,7]。当前的方法在应对这些挑战时存在关键局限性，特别是在识别精细结构细节、实现精确边界划分和检测小型组件方面[8]。这些缺陷严重削弱了自动化输电设备分割系统的可靠性和实际应用性，因此需要开发更为强大和复杂的解决方案[9]。受这些运营需求的推动，无人机（UAV）技术和深度学习的结合催生了基于视觉的智能检测系统这一范式转变[10]。传统的人工检测方法存在固有局限性，包括运营效率低、成本高昂和安全隐患大。在高海拔和高电压操作环境中，这种职业风险尤其严重，因为人工检查员面临电气事故和坠落受伤的重大风险[11]。这些以人为中心的安全考虑是向基于视觉的自动化系统转变的主要驱动力。尽管当前工作侧重于算法创新以提高分割精度，但所提出的方法在架构上设计为与未来实际应用中的人机协作场景兼容[12]。在这样的部署框架中，基于AI的分割算法作为决策支持系统，融入协作式操作范式中，而不是自主替代机制。在设想的实际实现中，安装在无人机上的检测平台可以利用实时计算机视觉流程生成初步的缺陷定位结果，使领域专家能够通过远程、安全的界面进行明智的维护决策[13,14]。这种协作计算范式通过最小化人员直接接触危险操作场景的风险，同时提高了检测效率[15]。尽管深度学习方法在这一领域展示了出色的潜力（如强大的特征提取能力），但航空图像的独特特征——包括超高分辨率、异质背景和细长目标形态——带来了严峻的技术挑战，需要专门的设计解决方案[16,17]。为应对这些障碍，近期研究从一般性的分割改进发展为专门的架构优化，大致可以分为基于CNN的、基于Transformer的和混合注意力网络。为了提高在不同操作环境中的泛化能力，李等人[18]开发了一种利用全卷积神经网络并结合注意力信息融合的跨场景检测方法。为了解决由于局部上下文不足和背景噪声导致的准确性下降问题，杨等人[19]在U-Net架构中加入了注意力融合网络。在计算效率和遮挡处理方面，马等人[20]通过整合路径聚合特征金字塔网络（PaFPN）优化了SoloV2框架，而苏扎等人[21]进一步展示了基于YOLO的架构在实时缺陷分类中的有效性。最近，桑加亚等人[22]提出了基于Tiny-YOLOv9的LCUT-Sv9框架，加入了3D特征适应和坐标注意力以提高检测速度和安全性。此外，还引入了特定的优化措施来应对细长物体的形态挑战。高等人[23]采用了非对称分解卷积来提高特征提取效率，戴等人则利用双边7×1和1×7卷积来更好地适应线路形态。为了在复杂的航空背景中捕捉全局上下文，张等人[24]探索了基于Transformer的跨模态融合策略。尽管自动化检测系统取得了显著进展，但现有的主流分割模型（如U-Net、DeepLab和标准YOLO变体）在这一特定应用中仍存在关键局限性。它们依赖于传统的各向同性卷积核，在处理极细的目标时不可避免地过度采样了背景噪声，导致细长输电线路频繁出现碎片化。此外，它们在复杂塔结构的边界划分上不够精确，泛化能力不足。为了解决这些根本挑战，本研究提出了一种新的电力传输设备分割框架，在YOLO11架构内协同整合了双向卷积和多层注意力机制。具体而言，所提出的双向卷积通过将特征提取分解为正交分量，有效地克服了各向同性核的局限性，从而在目标轴线方向上最大化信号密度，同时抑制了背景干扰。所提出的方法引入了两个创新模块，专门用于增强形态多样的电力传输基础设施的特征表示和分割精度。在大规模电力传输设备数据集上的全面实验评估证明了我们方法取得的显著性能提升。本研究的主要贡献如下：(1) 我们引入了双向卷积模块（C3x），以克服传统各向同性操作符固有的表示瓶颈。标准方形卷积核在处理一维输电线路时存在严重的几何不匹配问题，因为它们的接收场不可避免地采样了过多的垂直于线路结构的背景噪声。所提出的模块通过将特征提取分解为水平和垂直路径来解决这一限制。这种设计标志着从通用特征提取向物理感知的各向异性建模的转变。它使网络能够在保持细长线形特征的同时压制背景干扰，从而有效解决了细长物体检测中常见的碎片化伪影问题。(2) 我们开发了多层级联注意力机制（MLCA），以应对输电塔中空格子结构带来的挑战，其中局部特征在空间上是不连续的。与仅基于语义抽象的传统注意力机制不同，这种架构是分层部署的，用于解决复杂格子结构的拓扑模糊问题。通过在多个尺度上建立长距离依赖性，该机制充当了一种语义桥梁，将分散的结构组件连接成一个连贯的整体对象。这种方法显著增强了模型对遮挡和背景杂乱的鲁棒性，确保了结构复杂设备的精确边界划分。

2. 方法所提出的对YOLO11框架的架构改进引入了两项针对电力传输设备分割的实质性修改。主要创新解决了电力传输基础设施特有的几何特征：输电线路的细长线性形态和输电塔的复杂格子配置对传统各向同性卷积操作符提出了严峻挑战。这些标准核在捕获方向依赖特征方面的能力有限，需要更复杂的解决方法。因此，集成了一种双向卷积机制，作为传统模块的系统性替代方案，采用空间分解的核独立建模水平和垂直特征响应，以增强方向特定的模式识别。次要修改解决了基线YOLO11架构中受限的注意力机制问题，该机制将注意力计算限制在深层网络的一个模块内。这种设计范式未能充分利用视觉表示在多个尺度上的层次结构。所提出的框架在网络的不同深度战略性地部署了注意力模块，建立了一个多层次的特征增强架构。这种层次化注意力机制能够跨多种语义尺度全面细化特征，为形态复杂的电力传输设备实现精确的边界划分，同时保持计算简洁性。图1展示了改进后的YOLO11框架的整体架构。

2.1. 双向卷积模块 C3k2模块是原始YOLO11主干架构中的核心元素，它利用跨阶段部分设计原则来平衡表示能力和效率。然而，其基本的瓶颈配置仍然受限于对传统3×3各向同性卷积的依赖。这种设计在处理输电线路时存在严重的几何不匹配问题。由于这些目标通常具有极高的纵横比，且宽度仅占一个或两个像素，以线路为中心的标准方形核不可避免地将大部分计算资源用于处理背景噪声。这种噪声稀释效应显著降低了对象轴线上的有效接收场，是基线检测结果中观察到的线条碎片化的根本原因。为了解决这一基于物理的局限性，所提出的C3x模块从通用特征提取转向了各向异性建模。该架构创新集中在一种空间分离的卷积策略上，将标准核分解为正交分量，即（1×3）和（3×1）配置。这种设计明确实现了沿水平和垂直轴的独立特征建模，使网络能够在压制背景干扰的同时，有效地突出方向特定模式。因此，特征激活完全由结构信号驱动，而非背景噪声。C3x模块的详细架构如图2所示。其核心是一个改进的瓶颈单元，其中传统的2D卷积核被扩展为一组双向卷积核：?? ={(1,3),(3,1)}。这种设计本质上是将标准3×3核分解为方向敏感的分量，使得提取方向特征更加有效。给定输入特征张量??∈???×??×??，正交特征提取和融合过程严格地包括了归一化和非线性激活： ???=???(??(Conv1×33(??))) (1) ????=???(??(Conv3×13(???))) (2) ??=??+???? (3) 其中??( ·)表示批量归一化，???( ·)代表SiLU激活函数，Y表示通过残差连接融合后的输出。C3x双向卷积模块通过这种特定的特征融合策略实现了目标空间结构的增强建模，整合了水平和垂直卷积路径，同时保持了原始的梯度流。结果特征图保留了原始特征的语义信息，同时通过方向分解机制显著提升了各向异性结构的表示能力。与使用标准3×3卷积的传统模块相比，C3x在参数效率和计算复杂性方面具有显著优势：将单个3×3卷积分解为两个正交卷积（1×3）和（3×1），参数数量减少了约33%，同时保持了相当的接收场，有效避免了模型过参数化。正交卷积分解策略赋予了网络明确的方向感知能力，使得在不同方向上适应性地增强特征响应。这种不对称卷积策略与电力传输设备的形态特征高度契合，精确捕捉了连贯的细长结构，同时有效保持了复杂目标（如输电塔）的几何边缘信息。因此，这种轻量级架构在特征表达能力上取得了显著改进，为下游分割任务提供了更具辨别力的特征表示。

2.2. 多层级联注意力输电塔由于其半透明、类似格子的特性，带来了独特的分割挑战。标准的CNN倾向于过度关注局部纹理，经常将透过塔间隙可见的背景错误分类为“非物体”，导致分割掩码出现断裂。基线YOLO11配置通过将注意力处理限制在SPPF之后的单个C2PSA模块上，加剧了这一问题。这种架构限制了细粒度空间信息的利用，因为仅靠深度语义特征不足以解析空心结构的拓扑歧义。为了应对这些计算挑战，我们开发了多层级联注意力（MLCA）来强制全局拓扑完整性。与基线方法不同，所提出的框架策略性地在多个网络层次部署C2PSA模块，建立一个层次化的注意力级联。通过计算扩展感受野上的注意力图，MLCA抑制了来自背景间隙的高频噪声，并加强了空间上相距较远的结构组件之间的语义联系。这项工作通过三个战略阶段实施MLCA，构建了一个渐进式的特征增强策略。浅层MLCA模块在高分辨率特征图上操作，以保留丰富的空间细节，有效捕获局部区域内的细长目标连续模式。中层模块建立了长距离依赖性，这对于理解复杂格子结构的整体拓扑至关重要。最后，深层级联架构细化了全局上下文信息，确保即使在高度抽象的特征空间内也能进行精确的目标定位。这种多层次机制不仅提升了全局感知能力，还显著改善了传统网络中由于注意力覆盖不足而产生的分割不连续性问题。

具体来说，给定一个输入特征图?? ∈???×??×??×??，首先通过1 ×1卷积将通道数减少到2???′，其中??′ =?? ·??，e表示压缩比。然后将结果特征图沿通道维度分成两个分支，??,?? ∈???×??′×??×??。分支a直接保留残差信息，而分支b通过一系列自注意力模块PSABlock进行处理，用于跨空间和跨通道建模：
??1,??2=Split?(Conv1×1?(??)) (4)
??′=PSABlock(??)?(??2) (5)
??=Conv1×1?(Concat?(??1,??′)) (6)
与SE或CBAM等已建立的卷积注意力模块不同，后者严重依赖全局平均或最大池化将空间上下文聚合为单一通道描述符，PSABlock利用多头自注意力（MHSA）来计算动态的、密集的像素间亲和力。具体来说，输入特征被线性投影为查询（Q）、键（K）和值（V）张量。然后通过缩放的点积计算注意力权重：
???????????????????????????(??,??,??)=Softmax?(???????√????)??? (7)
其中????代表键维度的缩放因子。这种机制本质上在整个感受野上计算了细粒度的空间依赖性。同时，将特征投影到多个独立的“头”上，促进了不同通道子空间的渐进式聚合。在每个PSABBlock内部，这种多头自注意力与前馈网络协同工作，同时使用残差连接来加强训练稳定性和特征表现力。通过堆叠多个PSABBlock（增加参数n），模型在空间和通道域上逐步构建复杂的依赖性，从而提高了具有复杂结构模式传输设备的分割精度。

3. 实验
3.1. 实验参数
所有实验都在单个NVIDIA A100 GPU上进行，使用Python 2.9和PyTorch 2.5框架。输入图像被大小调整为640 ×640像素，输出为相同分辨率的分割掩码。训练过程以16的批量大小进行，最多1500个 epoch。这个较大的上限是有意设置的，以适应MLCA模块所需的复杂空间建模，而提前停止机制（耐心值为100个epoch）确保在收敛时动态终止训练——通常远在1500个epoch之前——有效地防止过拟合。自适应优化器选择策略根据训练阶段动态配置优化器类型和参数；初始学习率设置为0.01，动量设置为0.937，权重衰减设置为0.0005。在前三个epoch期间激活热身程序以稳定优化。为了确保所有架构之间的确定性可重复性和公平比较，尽管运行多次统计试验的计算成本很高，但严格应用了固定的随机种子（seed = 0）。数据增强在数据加载过程中动态应用，这避免了物理数据集大小的扩大，同时确保了连续的批量多样性。在线增强包括随机水平翻转（概率0.5）、RandAugment和随机擦除（概率0.4），而更复杂的方法（如Mosaic、MixUp和CopyPaste）被禁用以保持数据真实性。混合精度训练（AMP）用于加速，数据加载利用了八个并行工作线程。在验证过程中，IoU阈值0.7用于指导评估。这个相对严格的阈值是特别选择的，以强制高保真度的边界划分，这对于准确分割细长目标和复杂格子结构至关重要。为了适应细粒度对象分割，启用了重叠掩码和4的掩码比例，大大提高了模型划分细长结构（如传输线）的能力。

3.2. 数据集
本案例研究采用TTPLA [25]数据集作为模型训练和评估的主要基准。TTPLA包含1232张超高分辨率遥感图像（3840 ×2160像素），涵盖了四种典型的传输设备：传输线、格子传输塔、杆式塔和木塔。请注意，在预处理阶段，由于严重的注释损坏，原始1234数据集中的2张图像被排除。数据集被仔细划分为903张用于训练，109张用于验证，220张用于测试，以便对分割性能进行稳健和全面的评估。原始注释以JSON格式提供，包括每个实例的细粒度类别归属和分割边界，记录为多边形坐标或直接掩码索引。为了确保与YOLO分割管道的无缝集成，注释文件经过结构转换：坐标相对于图像尺寸进行归一化，多边形边界被栅格化为与YOLO协议兼容的二进制掩码表示。每个实例的分割标签根据训练标准综合了图像路径、掩码位置和分类索引。为了程序的一致性，所有图像都被统一缩放到640 ×640像素，以满足YOLO架构的输入要求。

3.3. 对比实验
为了验证所提出模块在传输设备分割中的有效性，我们在TTPLA数据集上进行了全面的对比实验。所有模型在相同的策略和数据预处理条件下进行训练，以确保公正性和可重复性。几种最先进的分割架构作为基线比较，包括Yolact [26]、Mask R-CNN [27]、YOLOv5 [28]、YOLOv8 [29]、YOLOv9 [30]和基线YOLO11。表1总结了在IoU阈值0.5下的平均精度（mAP），以及多个IoU阈值（0.5–0.95）下的mAP……分别针对边界框（b）和掩码（m）预测进行了评估。值得注意的是，虽然某些非YOLO基线模型（例如YOLACT的700 ×700）的输入分辨率不同，但这些尺寸严格遵循其各自作者推荐的最佳配置。强制在根本不同的架构上使用统一的640 ×640分辨率会人为地降低它们预校准的特征金字塔和锚点设置。因此，在其最佳配置下评估每个模型可以确保对其真实结构能力的更客观和公平的比较。这些指标共同展示了我们提出框架的优越性能。表1列出了最先进物体检测模型的性能比较（按mAP@0.5（b）升序排列），其中（b）表示边界框检测，（m）表示基于掩码的分割。所提出框架的稳定性体现在其在不同评估指标上的统一性能提升。在各种IoU标准下，检测和分割精确度的一致性提升表明，架构改进是结构上的，而不是随机训练波动的结果。实验设置统一实现了YOLO分割框架，训练图像标准化为640 ×640分辨率。基线比较的评估指标主要依赖于不同IoU阈值下的平均精度（mAP），提供了分割准确性的标准和全面评估。所有结果都在指定的TTPLA测试集上进行了评估，该测试集包含220张未用于训练的图像，确保了评估的客观性和泛化能力的验证。表1中呈现的实验结果表明，我们提出的方法在所有评估指标上都具有优越的性能：边界框检测的mAP@0.5达到了72.56%，比基线YOLO11高出2.97个百分点；掩码预测的mAP@0.5达到了68.37%，比基线YOLO11高出4.52个百分点。这些结果证实了我们的方法在传输基础设施分割精度方面的显著优势。

3.4. 消融实验
一项全面的消融研究系统地调查了所提出架构组件的个体和协同贡献对分割性能的影响。实验设计隔离了两个核心创新的影响：C3x模块，它采用方向敏感的特征提取来增强空间建模；以及MLCA模块，它实现了多层级联注意力机制，用于集成局部-全局特征表示。消融协议遵循系统的集成策略，逐步加入架构修改，以量化它们各自的贡献。首先通过用所提出的C3x变体替换C3k2模块来修改基线配置，然后分别在独立和组合配置中集成MLCA模块。每个架构变体都在传输设备分割基准上进行严格评估，从而能够精确量化归因于特定组件的性能改进。表3显示了所有实验配置的比较分析，详细说明了计算开销（FLOPs和参数数量）以及分割指标，以展示通过每个架构增强所取得的增量收益。表3展示了C3x和MLCA模块对分割性能影响的消融研究。勾号（?）表示相应模块被包含，而“–”表示未使用。如表3所述，定量消融结果证实了所提出模块的独特贡献和协同优势。C3x模块的集成将掩码mAP提高了66.21%，F1-Score提高了70.94%。这种提升仅需增加0.9 G FLOPs和0.06 M参数，计算成本几乎可以忽略不计。这种效率有效地验证了跨方向解耦策略在建模细长传输线的各向异性形态特征方面的优越性。相比之下，独立的MLCA模块实现了最高的边界框mAP，达到72.65%，展示了其在全局上下文聚合中的优势，尤其是在对象定位方面。然而，这种能力带来了显著的计算开销增加，达到了134.2 G FLOPs。尽管这种计算成本对于直接边缘部署来说相对较高，但在我们的目标操作范式中是完全可接受的。正如引言中所述，我们的框架是为协作式“人在回路”检查系统设计的。在这种情况下，UAV主要作为高移动性采集平台，而计算密集型分割——特别是MLCA处理——在高性能地面站或云服务器上执行。在关键电网安全的背景下，复杂塔架的显著准确性增益远远超过了地面计算的开销，优先考虑了严格的检查精度而不是仅边缘处理速度。对于完全自主的边缘部署，我们计划在未来工作中探索结构性修剪。至关重要的是，两个模块的协同集成实现了最佳的掩码分割性能，mAP为68.37%，F1-Score为71.76%，仅比单独的MLCA配置增加了0.9 G FLOPs的边际成本。这证实了我们的框架成功地将强大的全球语义建模与精确的局部特征提取相结合，为复杂的传输基础设施提供了卓越的分割保真度。为了直观验证所提出模块在处理细线和复杂塔架挑战方面的有效性，我们采用了Grad-CAM来可视化特征激活图，如图3所示。分析细传输线：如图3的第一、第三和第四行所示，基线YOLO11的特征响应是碎片化的，常常被树木或建筑物等背景纹理所干扰。相比之下，配备了C3x模块的模型显示出明显的转变，激活图沿着传输线变得连续且线性。这从视觉上证明了空间解耦的卷积策略成功地增强了特定方向的特征响应。从理论角度来看，传输线本质上是嵌入在二维空间域中的1D连续信号。传统的各向同性滤波器（如标准的3×3内核）会均匀地汇总所有方向的特征，无意中用侧向背景噪声稀释了细目标的信号。相反，C3x模块中的方向性滤波器（1×3和3×1）作为各向异性操作符，与这些细长结构的几何先验对齐。通过严格沿正交轴整合特征，它们最大化了沿线路轨迹的信号积累，同时严格最小化了侧向感受野，从而为解决细长目标分割中的碎片问题提供了稳健的理论基础。分析复杂塔架结构：对于第二行中的传输塔场景，基线模型未能捕捉到完整的结构，注意力分散在地面。引入MLCA机制显著地通过扩展感受野来覆盖塔架的网格结构，纠正了这一问题。此外，整个方法协同工作，使得目标上的激活强度高，同时最大程度地抑制背景噪声。这种可视化提供了有力证据，表明所提出的改进是专门针对传输设备的形态特征进行的。图3. 不同模型变体（Yolo11、A、B、C）之间特征激活图的Grad-CAM可视化比较。颜色越暖表示激活度越高，颜色越冷表示激活度越低。

3.5. 可视化
本节通过全面的可视化实验，详细描述了所提出方法在实际传输设备分割任务中的性能，重点评估模型在面对各种挑战性场景时的鲁棒性和精确性。为了彻底评估这些改进，我们仔细选择了TTPLA数据集中的代表性图像，涵盖了传输设备检测和分割中的典型挑战：在复杂背景中精确定位细传输线、在密集结构化的传输塔内保持细节、在不同光照条件下稳定识别以及在多目标重叠场景中进行准确分割。图4展示了我们的方法在TTPLA数据集内不同场景下生成的分割结果，其中蓝色边界框表示传输线的检测结果，青色掩码表示传输塔的分割结果，每个检测结果上方显示了相应的置信度分数。可视化结果显示，我们的方法在处理细传输线时表现出卓越的连续性保持能力，即使面对复杂的自然背景也能准确捕获完整的线路轮廓，置信度分数始终超过0.90。对于结构复杂的传输塔，改进后的模型能够精确分割出细小结构细节，包括支撑框架和横臂，产生的掩码边界与实际目标轮廓非常吻合。在具有挑战性的光照条件下，如背光和阴影遮挡，以及各种环境变量（例如雾或能见度低）和不同的无人机相机角度下，该模型仍保持稳定的检测性能。特别是，MLCA模块的全局上下文聚合有效地通过从部分观察中推断出完整的拓扑结构来缓解严重的物理遮挡。同时，C3x模块的各向异性滤波确保了无论相机角度如何引起的视角失真，都能一致捕获传输线的细长形态。此外，在具有重叠或密集分布的传输设备的复杂场景中，我们的方法能够准确区分各个目标实例，同时避免误报和漏检。这些视觉演示有力地验证了我们在实际应用场景中提出的方法的实际可行性。

3.6. 局限性分析
尽管C3x和MLCA模块实现了令人满意的性能，但所提出的框架在某些极端操作场景中仍存在局限性。首先，在严重的大气退化条件下——例如浓雾或极端的光学过曝——超细传输线的视觉对比度急剧降低。这种低信噪比限制了C3x模块提取方向梯度的能力，偶尔会导致不连续或缺失的分割。其次，当传输塔被密集的森林冠层或具有类似网格纹理的复杂背景严重遮挡时，MLCA模块可能会过度聚合视觉上相似的背景特征，导致轻微的边界过分割。公开讨论这些边缘情况揭示了纯RGB光学传感器在高度复杂环境中的固有物理限制。这些失败案例直接激发了我们未来研究探索跨模态融合策略的动机，例如整合LiDAR或热成像，以克服单模态视觉系统的瓶颈。

4. 结论
本研究通过提出基于YOLO11架构的协同增强分割框架，解决了与细传输线和结构复杂塔架相关的关键建模瓶颈。通过集成双向卷积（C3x）模块来解耦方向特征提取，以及多层级联注意力（MLCA）机制来捕捉层次化的语义依赖性，所提出的方法在精确性和效率之间取得了卓越的平衡，获得了0.5精度下的边界盒mAP为72.56%和掩码mAP为68.37%的量化结果。这些定量结果验证了该框架在克服形态各向异性和背景杂乱方面的鲁棒性，同时保持了适用于智能检测的轻量级特性。展望未来，我们旨在通过探索先进的多模态融合策略和实施模型加速技术（特别是结构剪枝[31]和知识蒸馏[32]）来进一步优化资源受限平台上的推理延迟，从而缩小实际应用与理论之间的差距。

热点排行