CDFF-DETR:一种基于跨尺度双特征融合金字塔网络的轻量级路边物体检测框架

《Digital Signal Processing》:CDFF-DETR: A Lightweight Small Object Detection Framework Based on Cross-scale Dual-Feature Fusion Pyramid Network for Roadside Data

【字体: 时间:2026年06月18日 来源:Digital Signal Processing 3

编辑推荐:

  陈军|朱俊杰中国北京100191,北京航空航天大学交通科学与工程学院摘要由于具备独特的俯视视角,路侧传感器能够为自动驾驶车辆提供更广阔的视野感知信息,弥补车载传感器感知范围的局限性。然而,仍需克服在复杂天气条件下精准检测小型目标等技术难题。为解决这些问题,本文基于检测变换器架构提

  
陈军|朱俊杰
中国北京100191,北京航空航天大学交通科学与工程学院

摘要

由于具备独特的俯视视角,路侧传感器能够为自动驾驶车辆提供更广阔的视野感知信息,弥补车载传感器感知范围的局限性。然而,仍需克服在复杂天气条件下精准检测小型目标等技术难题。为解决这些问题,本文基于检测变换器架构提出了一种新型模型CDFF-DETR,该模型采用跨尺度双特征融合金字塔网络来提升小型物体检测性能。该模型还包含了轻量级门控特征聚合单元以及尺度内特征增强与交互模块,从而在降低计算量的同时提高小型物体检测的准确性。在Rope3D数据集上的实验结果表明,与基准模型相比,CDFF-DETR的检测精度提升了5.1%,而误检率降低了4.4%,同时网络参数减少了38.2%。其性能优于基于卷积神经网络和视觉变换器的典型YOLO和RT-DETR模型。此外,该模型在另外两个流行数据集上的小型物体检测任务中也保持了优势,证明了其在训练和测试场景中的泛化能力。

章节节选

引言

近年来,人工智能的快速发展推动了自动驾驶技术的持续创新。但对于自动驾驶车辆而言,车载视觉传感器的视野有限,使得其在交通密集的场景中难以检测远处物体。相比之下,部署在道路高处的路侧视觉传感器能够实现全局车辆感知,从而为车载自动驾驶系统提供有效的感知增强功能

物体检测

物体检测是计算机视觉领域的核心任务之一,旨在定位并识别图像中的目标物体。一个完善的物体检测模型通常包括用于特征提取的骨干网络、用于特征编码的编码器,以及用于预测物体类别和边界框位置的解码器。在特征提取的骨干网络方面,过去二十年间出现了VGG[1]、ResNet[2]、ResNext[3]、DenseNet[4]等系列模型

方法

为提升路侧摄像头对小型物体的检测精度,本文提出了一种名为CDFF-DETR的模型,该模型包含轻量级门控特征聚合单元、IFEI模块、CDFF金字塔网络以及解码器组件。图3展示了所提CDFF-DETR模型的基本结构。对于输入图像,LGFA单元会提取多尺度特征,生成P2、P3、P4和P5四个特征层。随后,P5特征层会经过IFEI模块处理,以实现尺度内的特征优化

实验与结果

Rope3D是一个用于自动驾驶和高级驾驶辅助系统研究的数据集[38]。该数据集通常包含多种传感器数据,如摄像头图像、雷达点云、激光雷达扫描数据以及其他潜在的传感器信息。它的作用是为研究人员提供丰富的数据,用于车辆定位、环境感知和路径规划等相关研究。用于采集图像的摄像头安装在交叉路口的交通信号灯上方,具备良好的观测条件

讨论

实验结果表明,CDFF-DETR在三个具有不同特点的数据集上均取得了稳定的性能提升。尤其值得注意的是,在UA-DETRAC数据集上的性能提升幅度达到了11.6%,这一数值远高于在Rope3D数据集上的5.1%以及在DAIR-V2X-I数据集上的2.4%。出现这种差异的主要原因是UA-DETRAC数据集中微型物体的比例较高,这类物体占总目标的近20%,而非数据集本身的特定偏差。其中,引入P2特征层也起到了重要作用

结论

本文针对从路侧视角检测小型物体的难题展开研究,这类场景下极端的尺度变化和恶劣的天气条件会严重降低检测性能。为此,本文提出了一种名为CDFF-DETR的轻量级检测框架,该框架针对性地解决了基准RT-DETR架构中的三个关键问题。LGFA单元采用无损的空间到深度转换机制替代了传统的基于池化的下采样方式,从而保留了精细的空间细节

作者声明

我们以下签名的作者声明,本手稿为原创内容,未曾发表过,也不存在同时被其他机构考虑发表的情况。我们确认所有列出的作者均已阅读并批准了本手稿的内容,且没有其他符合作者资格但未被列入名单的人士。我们还确认手稿中作者的排序已得到所有人的认可。我们知道,通讯作者是唯一的联系人

CRediT作者贡献

陈军:概念设计、方法论、资金获取、项目管理、监督、资源协调、写作——初稿撰写、写作——审阅与编辑。
朱俊杰:方法论、软件开发、形式分析、研究实施、数据整理、验证、结果可视化、写作——初稿撰写。

资金支持方的角色

本研究得到了中国国家重点研发计划(项目编号2023YFB2603605)和中国国家自然科学基金(项目编号51978027)的资助。这些资金支持方并未参与本研究的设计、数据收集、分析、解释、手稿撰写或投稿决策等工作。作者们可以自由获取研究数据,并承担投稿发表的相关责任。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号