基于改进的噪声训练检测机制的Transformer架构无人机图像检测器

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Improved noising training detection Transformer based drone image detector

【字体：大中小】 时间：2026年04月07日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　无人机图像目标检测中，针对小物体密集分布、背景复杂等问题，提出INT-DETR改进方法。通过设计随机噪声增强训练模块提升模型鲁棒性，采用一多标签匹配机制缓解高密度物体分类不确定性，最终在VisDrone2019-DET和SeaDronesSeeV2数据集上验证有效性，检测精度显著优于传统DETR模型。

卢丁|邓静华|黄迅|王勇

广西大学电气工程学院，南宁，530004，中国

摘要

基于Transformer的方法，如Detection Transformer（DETR），在目标检测领域发挥着重要作用。然而，在无人机图像目标检测中，由于物体尺寸小、物体分布不均匀以及图像变化幅度大等问题，DETR难以充分发挥其算法优势。为了解决这些问题，我们提出了一种改进的带噪声训练的检测Transformer（INT-DETR）算法，旨在解决无人机图像中物体小且分布密集的问题。首先，设计了一个噪声训练模块，用于向真实标签随机添加不同级别的噪声，以提高模型匹配复杂物体的稳定性，并加快对关键密集物体区域的关注速度。其次，采用了一对多标签匹配分配训练算法，以减少高密度或遮挡导致的物体分类不确定性，从而提高小物体检测的准确性。最后，在VisDrone2019-DET和SeaDronesSeeV2数据集上的评估验证了所提方法的有效性。实验结果表明，INT-DETR在无人机图像目标检测中表现出了优异的性能。

引言

目标检测是计算机视觉中的一个基本任务，其目标是预测图像中物体的边界框和类别。基于卷积神经网络（CNN）的检测器（Lin等人，2017a；Ren等人，2015；Tian等人，2019；Lin等人，2017b）与手工设计的方法相比取得了显著进展。最近，Transformer（Vaswani等人，2017）被引入计算机视觉领域，而检测Transformer（DETR）（Carion等人，2020）的提出也达到了与CNN方法相当的性能。与之前的检测算法不同，DETR利用可学习的查询从Transformer编码器的输出中提取图像特征，并通过二分图匹配进行基于集合的预测。这种设计有效地消除了锚点生成和后处理步骤（如非最大值抑制（NMS）（Hosang等人，2017），实现了目标检测的端到端优化。然而，与基于CNN的目标检测算法相比，基于Transformer的方法通常需要更长的训练时间和更多的训练数据才能获得理想的结果。

尽管DETR表现出了令人印象深刻的效果，但它对复杂或杂乱的背景敏感。此外，在实际应用中，DETR在检测小物体时存在不足，例如训练阶段收敛速度慢，以及解码器中查询的含义不明确（Dai等人，2021b；Liu等人，2021；Meng等人，2021；Sun等人，2021；Wang等人，2022；Zhu等人，2020；Li等人，2022；Kun等人，2023a）。为了解决这些挑战，人们在检测框架中提出了几种方法，包括可变形注意力机制和分离位置与内容信息的方法。最近，DAB-DETR（Liu等人，2021）将DETR的查询表示为动态锚点框，建立了传统基于锚点的检测器与类似DETR的检测器之间的桥梁。DN-Deformable-DETR（Li等人，2022）通过引入去噪技术进一步解决了二分图匹配的不稳定性问题。DAB和DN模块的结合使类似DETR的模型在训练效率和推理性能方面能够与其他检测器竞争。

尽管基于Transformer的模型在目标检测领域取得了显著成就，但在无人机图像中检测物体仍然具有固有的挑战性。如图1所示，无人机图像目标检测面临两个主要挑战：

$•$
首先，DETR依赖于二分图匹配算法来优化模型预测与真实标签之间的匹配。然而，单个无人机图像中包含大量分布密集的小物体，这些小物体相互重叠或遮挡，使得匹配过程更加困难。预测的物体可能会被错误地匹配到相邻物体上，从而导致目标定位不准确。
$•$
其次，使用未经针对无人机图像优化的现有模型（例如VisDrone2019-DET（Du等人，2019）数据集）进行检测时，存在明显的性能差异。DETR可以利用整个图像的语义信息，对所有像素进行同等重要的目标检测，但由于小物体难以与背景区分，导致目标定位不准确。DETR在计算中包含了过多的背景特征，这些背景特征可能会稀释小目标的特征，从而影响小物体的准确定位。

DETR中二分图匹配的离散性和模型训练的随机性导致查询与物体匹配的过程动态且不稳定。在包含密集分布或小物体的无人机图像中，相同的查询在训练过程中经常匹配到不同的物体，增加了网络模型的学习难度。受DN-DETR的启发，可以通过去噪训练来稳定这些复杂物体的匹配过程（Li等人，2022）。无人机图像通常包含大量物体，使得匹配过程更加复杂，去噪训练无法充分发挥其在加速模型收敛方面的潜力。

基于上述分析，我们设计了一个新的去噪训练模块，并提出了一种一对多边界框匹配方法来改进训练步骤。这一改进不仅有助于DETR加快训练收敛速度，还提高了检测性能。

在本文中，我们提出了一种基于去噪训练的无人机图像目标检测方法，称为INT-DETR。我们的贡献如下。

$•$
我们为小而密集的物体设计了一个去噪训练模块，加速了收敛过程并提高了小物体的定位精度。在该模块中，我们随机选择物体并添加高斯分布采样的不同级别的噪声。
$•$
我们在去噪训练期间提出了一种新的一对多标签匹配分配方法，减轻了由于密度或遮挡导致的物体类别不确定性。
$•$
我们通过在VisDrone2019-DET和SeaDronesSeeV2两个无人机图像数据集上的评估证明了INT-DETR的有效性。结果显示，我们的模型在大多数指标上优于其他基于DETR的模型，并且与最先进的模型相当。

章节片段

基于CNN的目标检测方法

基于CNN的目标检测主要分为两类：一类是一阶段方法，另一类是两阶段方法。这两类方法都依赖于预定义的边界框。在一阶段方法中，如YOLOv2（Redmon和Farhadi，2017）、YOLOv3（Redmon和Farhadi，2018）、YOLOv11（Jocher等人，2024）和YOLOv12（Tian等人，2025），直接输出相对于预定义锚点的边界框偏移量。在两阶段方法中，使用区域提议网络（RPN）（Ren等人，2015）来生成潜在的边界框

概述

在这项研究中，我们提出了一种名为INT-DETR的新端到端目标检测算法，用于处理无人机图像中复杂背景下的小而密集的物体。INT-DETR是一个DETR模型，采用了编码器-解码器Transformer结构。首先，通过一系列Transformer编码器处理特征图来增强像素嵌入

实验

在本节中，我们评估了所提出模型在VisDrone2019-DET（Du等人，2019）和SeaDronesSeeV2（Varga等人，2022）数据集上的性能。VisDrone2019-DET数据集包含10,209张图像，其中6,471张用于训练，548张用于验证，1,610张用于测试。SeaDronesSeeV2数据集包含8,930张训练图像和1,547张验证图像。这两个数据集都专注于航空图像中的小物体检测任务。我们选择这两个数据集

结论

在本文中，我们提出了一种基于Transformer的端到端检测器INT-DETR，用于无人机图像。具体来说，我们在训练阶段使用了一对多分支，并设计了一个针对密集和小物体的改进型噪声训练模块。该模型缓解了DETR在处理二分图匹配复杂情况时的不稳定性，使我们的方法能够专注于关键的高密度物体区域。此外，我们还提出了一种新的

CRediT作者贡献声明

卢丁：撰写——原始草案，软件开发，数据管理，概念构思。邓静华：软件开发。黄迅：验证。王勇：撰写——审稿与编辑，研究调查，资金获取，数据管理，概念构思。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了以下机构的联合支持：国家自然科学基金基础科学中心项目（编号：62388101）、教育部高校产学研合作创新基金（编号：2024ZY011）、教育部系统控制与信息处理重点实验室基金、广西科学技术基地与人才项目（编号：GuiKe23026264）、广西研究生创新项目

卢丁目前是广西大学的助理教授。她在上海交通大学获得了控制科学与工程博士学位，研究兴趣在于深度学习和模式识别领域。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

基于CNN的目标检测方法

概述

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行