《Journal of Visual Communication and Image Representation》:EFI-YOLO: An enhanced framework for industrial object detection
编辑推荐:
EFI-YOLO基于YOLOv8s框架提出改进方案,通过DWR模块优化梯度传播和深层特征提取,引入GSConv和VoVGSCSP构建轻量级颈网络,结合动态采样技术提升多尺度特征融合能力,在六个工业场景数据集上验证其准确率与泛化能力显著优于基线模型,实现效率与精度的平衡。
Kanghui Zhao|Xingang Miao|Chao Huang|Jiaping Li
北京建筑工程大学建筑安全监测工程研究中心,中国北京100044
摘要
目标检测在工业领域仍然至关重要,但为特定应用定制算法可能耗费大量资源。本文提出了EFI-YOLO,这是一个基于YOLOv8s模型的改进框架,用于工业目标检测。主要创新包括引入DWR模块作为C2F中的瓶颈结构以优化特征提取,以及在颈部网络的所有卷积层中使用GSConv,取代了C2F和VoVGSCSP。这种方法在保持准确性的同时提高了检测速度,并减少了计算负担。为了提高上采样效果,采用了DySample进行点采样,从而增强了检测性能。在四个场景下的六个数据集上的实验表明,EFI-YOLO在各项指标上均优于其他算法,证明了其在工业应用中的泛化能力。代码和数据集可访问于:
https://github.com/DLxiaoming/EFI-YOLO。
引言
近年来,随着人工智能技术的不断发展,计算机视觉尤其是目标检测技术在工业领域得到了广泛应用。目标检测技术旨在定位给定图像或视频中的目标对象,识别它们的类别并确定它们的相对位置。高效准确的目标检测在工业应用中至关重要。机械部件、工具、设备或产品等对象是各种工业场景中的基本要素。准确及时地检测这些对象可以确保工人安全,优化生产流程、质量控制、库存管理和整体运营效率[1]、[2]、[3]。由于不同工业任务的需求各不相同,例如安全系统中的面部识别[4]、[5]、智能驾驶中的车辆检测[6]、[7]、[8]、工业机器人的精确感知[9]、[10]、[11]、[12]、特定环境中的缺陷和异物检测[13]、[14]、[15]、[16]、卫星遥感以及水下目标检测[17]、[18]、[19]、[20],工业应用中的常见做法是为每个特定任务选择专门的算法。
然而,工业任务的多样性及其不同的需求往往导致开发多个算法时产生大量的资源和时间成本。相反,如果在一个任务中使用单一算法,可能会使算法特性与任务要求不匹配,从而导致检测性能不佳、分类不准确和定位不准。例如,在工业缺陷检测任务中,准确性比实时性能更为重要,因为速度对产品质量影响较小,而漏检和误检可能会产生重大影响[21]、[22]、[23]。而对于智能驾驶和机器人检测[24]、[25]、[26]、[27]等任务,由于需要对外部环境做出快速响应,因此目标检测算法需要具备较高的响应速度,而对精度的要求相对较低。此外,在工业中广泛使用的资源受限的嵌入式和边缘设备上部署目标检测算法面临特定挑战[28]、[29]、[30]。这些平台的计算资源有限,参数过多和计算要求高的算法可能会使资源紧张,从而影响整体任务性能。
尽管基于YOLO的算法在工业检测中得到了广泛应用,但仍存在一些关键问题,如深度特征提取能力有限、计算效率与准确性之间的不平衡、上采样过程中的信息丢失以及跨场景泛化能力不足。具体来说,YOLO架构中的C2F模块存在冗余的梯度流传播路径,限制了深度特征表示,从而影响了对象特征的表达。此外,现有模型难以在嵌入式设备上同时实现高精度和低延迟,因为其高计算复杂度限制了实际应用。传统的上采样方法(如最近邻插值和双线性插值)在特征恢复过程中常常导致信息丢失,尤其是在检测小对象时,显著降低了检测性能。另外,在单一场景下训练的模型对多样化和动态的工业检测环境的适应性较差,限制了其泛化能力。
为了解决这些问题,本文提出了EFI-YOLO框架,该框架在梯度流优化、轻量级架构设计、动态特征恢复和跨场景泛化验证方面进行了系统改进。首先,引入了DWR模块来优化C2F结构,利用深度可分离卷积和残差细化路径来提高梯度传播效率并增强深度特征提取能力。其次,采用了Slim-neck轻量级架构,整合了GSConv和VoVGSCSP以减少模型参数和计算需求,同时保持基线准确性,从而在效率和精度之间实现了良好的平衡。此外,引入了DySample动态上采样操作符,通过可学习的权重动态融合多尺度上下文信息,提高了特征恢复质量。最后,在包括缺陷检测、交通监控和水下目标检测在内的六个不同工业场景进行了广泛的实验验证。结果表明,与基线模型相比,EFI-YOLO在平均精度上取得了显著提升,证明了其在复杂工业环境中的有效性和强大的泛化能力。
相关研究
相关工作
目标检测方法大致可以分为传统算法和基于深度学习的算法。然而,传统算法速度较慢且检测性能较差,因此现在较少使用。随着卷积神经网络(CNN)的不断发展,大多数现有的目标检测算法都基于深度学习。其中,一类涉及区域提出的算法被称为两阶段目标检测算法。
方法
YOLOv8是YOLO系列的第八代,包括五种不同大小的模型:n、s、m、l和x。模型架构如图1所示。EFI-YOLO是对YOLOv8的改进版本。与YOLOv8相比,EFI-YOLO引入了三项关键改进。
首先,模型的主干网络负责从输入图像中提取特征。特征提取能力的强弱直接影响提取特征的数量。
数据集准备
本文使用了来自不同工业场景的六个数据集来验证EFI-YOLO算法的有效性和泛化能力。所有数据集都配备了YOLO格式的标签数据。
NEU-DET [91]:NEU-DET钢材缺陷检测数据集由东北大学提供,包含1800张图像。缺陷分为六类:裂纹(Cr)、斑点(Pa)、夹杂物(In)、压痕表面(PS)和滚动划痕(RS)。在本研究中,
实验结果
为了验证EFI-YOLO模型的有效性和泛化能力,我们使用了两种算法:原始的YOLOv8s算法和改进后的算法,在不同的数据集上进行目标检测。检测结果在附表中展示。具体来说,表2、表3和表4展示了EFI-YOLO在NEU-DET、GC10-DET和PCB-DET数据集上的性能,而表5则展示了其在POT-DET、TRA-DET和Trash-DET数据集上的性能。
结论
在本文中,我们提出了一种新的目标检测算法EFI-YOLO,旨在为各种工业目标检测任务提供改进的算法框架。首先,我们将C2F-DWR模块引入YOLOv8的主干网络,通过其强大的多尺度上下文特征提取能力提升模型的检测性能。其次,我们通过引入GSConv和VoVGSCSP到颈部网络中,采用了Slim-neck架构。这种整合
CRediT作者贡献声明
Kanghui Zhao:撰写 – 原始草稿,撰写 – 审稿与编辑。Xingang Miao:概念构思,资金获取。Chao Huang:研究。Jiaping Li:资源提供。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
致谢
本研究得到了安徽省芜湖市科技计划项目(项目编号:2023pt06)和BUCEA研究生创新项目(项目编号:PG2024138)的资助。