《Neurocomputing》:A high-efficiency lightweight player detector based on edge-guided sampling
编辑推荐:
球员检测是体育广播视频战术分析的基础技术。然而,现有技术在落地应用中面临的核心挑战包括:频繁变焦导致的尺度变化、外观高度相似个体的区分,以及在远距离条件下对球员的可靠检测。针对上述难题,研究人员提出了一种名为EffPlayerDet的轻量化高效球员检测器,旨在
球员检测是体育广播视频战术分析的基础技术。然而,现有技术在落地应用中面临的核心挑战包括:频繁变焦导致的尺度变化、外观高度相似个体的区分,以及在远距离条件下对球员的可靠检测。针对上述难题,研究人员提出了一种名为EffPlayerDet的轻量化高效球员检测器,旨在低参数量与低计算量约束下,提升密集场景中的多尺度表征能力与判别稳定性。具体而言,该模型以LeYOLO及其FPANet为特征提取基线,实现了增强的轻量化多尺度语义共享。此外,研究人员设计了空间通道混合注意力模块(Spatial-Channel Mixed Attention, SCMA),通过联合控制通道级语义可靠性与空间显著性一致性,抑制深层特征中的伪激活,从而提升密集场景下的定位精度。同时,提出了边缘引导采样模块(Edge-Guided Sampling, EGSample),利用边缘结构先验与自适应加权重构技术,提升了远距离小目标的定位可靠性。消融实验进一步验证了EffPlayerDet各模块的有效性,证明了该架构适用于资源受限的实时体育分析场景部署。
该研究发表于《Neurocomputing》,聚焦于体育广播视频中球员检测这一基础技术环节。当前,体育赛事视频分析面临着成像环境复杂、球员运动速度快、镜头频繁切换与缩放以及人群密集聚集等多重挑战,其复杂程度远超通用行人检测任务。更为关键的是,检测误差会在长时序分析中累积并传递至后续的跟踪与定位模块,直接威胁整个分析系统的稳定性。尽管基于深度学习的两阶段检测器精度较高,但其串行的区域提议与精细化回归流程导致推理速度慢、计算成本高;而现有的单阶段检测器在处理实际比赛场景时仍存在显著瓶颈:一是镜头频繁变焦导致的大尺度跨度问题,现有网络难以在浅层细节与深层语义间取得平衡,易引发特征模糊与定位偏移;二是球员队服颜色纹理高度一致且在身体对抗中形成超密集场景,常规卷积难以捕捉个体细微差异,且标准非极大值抑制(Non-Maximum Suppression, NMS)在处理高密度重叠边界框时易出现误抑制或抑制不足;三是远距离广角镜头下的小目标球员仅占极少像素,经过多次下采样后细粒度空间信息丢失严重,且微小的回归误差会导致交并比(Intersection over Union, IoU)大幅下降,造成漏检与漂移。鉴于此,研究人员亟需开发一种兼顾高精度与高效率的轻量化模型以适应实际应用。
为解决上述问题,研究人员开展了基于边缘引导采样的轻量化球员检测模型研究。研究人员采用的主要关键技术方法如下:研究选用公开的足球球员检测数据集(Soccer Player Detection dataset),包含2019张比赛图像及22586个标注边界框,按比赛场次划分为训练集与测试集。以LeYOLO及其特征金字塔聚合网络(Feature Pyramid Aggregation Network, FPANet)为基线框架,设计了空间通道混合注意力模块(SCMA)以抑制背景伪激活,并构建了边缘引导采样模块(EGSample)以增强小目标定位。研究人员将所提EffPlayerDet与RTDETR-ResNet50、YOLOv5n、YOLOv8n、YOLOv10n、YOLO11n、YOLO12n及YOLO26n等八种主流检测器进行了全面的性能对比评估。
研究结果
注意力机制相关研究回顾
研究人员指出,注意力机制的核心在于动态建模特征图中不同空间位置与通道的重要性权重。其中,通道注意力(Channel Attention)通过全局平均池化聚合空间信息并生成通道权重,以强调判别性语义通道;空间注意力(Spatial Attention)则侧重于增强关键区域的响应。这为后续SCMA模块的设计提供了理论基础。
EffPlayerDet基线框架概述
研究人员选择LeYOLO作为基线框架,该框架由骨干网络与FPANet组成,旨在通过低计算成本实现稳定的多尺度语义表征与高效的跨层级特征聚合。LeYOLO采用倒置瓶颈块(Inverted Bottleneck Block)作为基础单元,利用点卷积(Pointwise Convolution)扩展输入特征的通道容量,从而在减少卷积层数与通道宽度的同时保持高效的计算流。
数据集预处理
研究使用了公开的Soccer Player Detection数据集。虽然数据源自广播视频,但模型仅针对单帧图像进行处理,未利用相邻帧间的时序信息。数据集依据比赛场次划分为Dataset001与Dataset002,其中Dataset001被用作训练集,Dataset002用于测试。
P-R曲线分析
在相同训练与评估设置下,研究人员绘制了八种检测器的精确率-召回率(Precision-Recall, P-R)曲线。结果显示,RTDETR-ResNet50在以微小目标和密集遮挡为主的足球场景中,召回率增长受限且假阳性样本积累,曲线距离左上角较远。相比之下,YOLOv5n与YOLOv8n表现稳定,而EffPlayerDet展现了更优的性能平衡。
结论
研究人员得出结论,EffPlayerDet成功解决了远距离小目标、密集遮挡与高外观相似性导致的特征混淆,以及剧烈多尺度变化引发的语义与细节矛盾等关键挑战。该轻量化检测架构通过端到端的结构设计,在低参数量与低计算量的约束下,实现了精度与效率的更优平衡,特别适用于资源受限的实时体育分析部署。消融实验充分验证了各模块的有效性,证实了该架构的工程应用价值。
讨论
讨论部分强调了EffPlayerDet在实际应用中的潜力。通过引入SCMA模块,模型有效抑制了背景纹理干扰,增强了密集区域内实例分离能力;EGSample模块则利用边缘先验信息,显著改善了远距离小目标的定位可靠性。该研究为复杂体育场景下的实时目标检测提供了一种新的高效解决方案,对于推动体育视频分析的落地应用具有重要意义。