从对象难度到图像评分:一种用于对象检测中的主动学习策略

《Knowledge-Based Systems》:From object difficulty to image scoring: A strategy for active learning in object detection

【字体: 时间:2026年04月10日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  特征困难度主动学习框架通过锚点引导的插值方法统一检测与定位不确定性,在四大数据集上均实现优于SOTA的精度提升,有效降低标注成本。

  
Duc Tai Phan|Nhut Minh Nguyen|Khang Phuc Nguyen|Phuong-Nam Tran|Nhat Truong Pham|Linh Le|Choong Seon Hong|Duc Ngoc Minh Dang
AiTA实验室,信息技术学院,FPT大学,D1街,西贡高科技园区,Tang Nhon Phu区,胡志明市,71320,越南

摘要

目标检测(OD)面临着大规模数据集标注这一高昂的成本障碍。主动学习(AL)是一种有前景的解决方案,它能够选择最有益的样本进行标注。将AL应用于OD具有挑战性,因为它需要在对对象进行分类和定位的同时,将对象级信息整合到单一的图像级决策中。当前的方法,如不确定性采样,通常依赖于输出级的不确定性或启发式信号组合。然而,依赖静态模型输出限制了它们捕捉潜在特征空间不稳定性的能力。为了解决这些限制,我们提出了基于特征难度的AL(FDAL),这是一种新的框架,它将重点从输出级启发式方法转移到主动的潜在空间操作上。通过系统地将未标记的特征向类别锚点插值,FDAL能够识别出模型未知的隐藏特征。这种基于锚点的插值方法统一了分类和定位的不确定性,捕捉到了传统范式所遗漏的潜在不稳定性。在四个OD基准测试上的实验表明,FDAL取得了最先进(SOTA)的结果,显著提高了检测精度,同时大幅降低了标注成本。在Pattern分析、统计建模和计算学习(PASCAL)视觉对象类别(PASCAL VOC)任务中,FDAL的检测精度比SOTA方法高出0.8%;在卡尔斯鲁厄理工学院和丰田技术学院(KITTI)的数据集中高出1.99%;在Cityscapes数据集中高出1.68%;在Microsoft Common Objects in Context(MS COCO)数据集中高出0.27%。FDAL在样本选择方面非常高效,在PASCAL VOC数据集上每张图片仅需0.06秒,在Cityscapes数据集上最多需要0.63秒,使其能够扩展到大规模未标记的数据集。FDAL为推进OD领域的AL提供了一个实用、高效且有效的解决方案。

引言

目标检测(OD)是计算机视觉(CV)的基石,它通过实现图像和视频中对象的精确识别和定位,推动了自动驾驶[1]、[2]、[3]、[4]、监控[5]和医学成像[6]、[7]等关键应用[9]。然而,训练高精度的OD模型需要大量标注的数据集[10],[11],每张图片都需要精确标注边界框和类别类别,这导致了模型开发中的显著瓶颈,因为这需要大量时间[12]。例如,Cityscapes数据集对于理解城市场景至关重要,其细粒度的像素级标注工作量超过了7500小时[9]。同样,作为OD基准的Microsoft Common Objects in Context(MS COCO)数据集也消耗了超过70,000小时的标注时间[13],反映了现代OD基准测试所需的巨大资源。这些结果突显了精确标注的必要性,因为标注的不准确或不一致性会直接降低检测性能,阻碍模型在现实世界场景中的能力[14]。
为了解决这一标注瓶颈,主动学习(AL)作为一种有前景的范式应运而生,它通过迭代选择最有益的未标记样本进行标注,从而以最小的标注工作量最大化模型性能[10]、[15]、[16]。例如,在修改后的国家标准与技术研究院(MNIST)数据集上的图像分类任务中,AL策略已经证明,与被动随机采样相比,使用AL策略的目标准确率可以减少多达65%的标注样本量[16]。然而,从分类到OD的转变引入了一个根本性挑战:需要将分类和定位的不确定性统一成一个连贯的决策[17]。现有的针对OD的AL方法往往不足,因为它们将这两个关键维度视为不相关的信号。例如,一些方法依赖于输出级的启发式方法来组合分类和定位分数[12],而其他方法则采用事后融合概率指标[18]。由于这些策略未能捕捉对象身份与其空间边界之间的内在依赖性,它们通常会忽略能够揭示实例真实难度的更深层次的特征表示。
受到这一差距的启发,我们提出了基于特征难度的AL(FDAL),这是一种新的策略,旨在通过统一潜在空间中的分类和定位难度来弥合这一分离。与传统方法不同,FDAL通过系统地将未标记对象的特征向类别锚点(潜在空间中的参考点,这些锚点捕捉了类别特征表示)插值,来发现对象的隐藏特征。这种基于锚点的插值方法提供了一种原则性的方法,通过检查预测不一致性来识别具有新特征的对象。当对象特征向类别锚点插值时,类别预测的显著变化表明在分类和空间维度上都存在理解上的不足。因此,FDAL提供了一种统一的难度度量标准,涵盖了现代对象检测器所要求的相互依赖性。
具体来说,FDAL通过三个互补方面实现这一理念:(1)基于标记对象的潜在特征构建锚点作为类别表示;(2)将未标记对象的特征向这些锚点插值,以模拟潜在的特征扰动;(3)聚合对象级难度分数,生成用于选择的图像级分数,涵盖分类和定位的不确定性。当特征向类别锚点插值时,预测变化的幅度揭示了模型未知的隐藏特征。这些特征包括分类(新的视觉特征)和定位(不稳定的空间理解)方面的难度。
我们的主要贡献包括:
  • 我们提出了FDAL,这是一种基于特征空间的AL方法,用于OD,通过系统地将未标记对象的潜在表示向类别锚点插值来发现它们的隐藏特征。与仅依赖输出预测的方法不同,我们通过检查特征插值后预测的一致性来识别这些对象,从而改进了样本选择。
  • 在包括Pattern分析、统计建模和计算学习(PASCAL)视觉对象类别(PASCAL VOC)[19]、[20]、卡尔斯鲁厄理工学院和丰田技术学院(KITTI)[21]、Cityscapes[9]以及MS COCO[13]在内的四个基准测试中的全面实证验证表明,FDAL始终优于最先进(SOTA)方法,在PASCAL VOC上的检测精度提高了0.8%,在KITTI上提高了1.99%,在Cityscapes上提高了1.68%,在MS COCO上提高了0.27%。
  • 全面的消融研究进一步验证了FDAL设计的稳健性,确认其在不同嵌入维度、扰动强度和数据集规模上的性能保持稳定。
本文的其余部分安排如下:第2节回顾了OD和AL的相关工作,强调了当前策略的局限性。第3节详细介绍了FDAL框架,包括FDAL框架概述和基于锚点的插值机制。第4节介绍了实验设置,并将FDAL与SOTA方法进行了比较评估,同时进行了分析关键超参数影响的消融研究。最后,第5节总结了关键见解和未来研究的方向。

章节片段

目标检测

目标检测是计算机视觉(CV)的核心任务,它涉及通过预测每个实例的边界框和类别标签来识别和定位图像中的对象。现代对象检测器由深度学习驱动,可以分为两类:两阶段检测器和一阶段检测器。
Ren等人[22]用Faster Region-Based Convolutional Neural Network(R-CNN)示例了两阶段方法,其中Region Proposal Network(RPN)生成了候选对象位置

方法论

本节介绍了FDAL框架,这是一种通过有效选择那些潜在表示能够揭示检测器未知隐藏特征的样本来最小化OD标注成本的新方法。FDAL利用特征空间中的系统插值来识别包含具有新特征的对象,从而在最小的标注工作量下实现显著的性能提升。下面,我们将描述问题表述、FDAL框架概述以及核心

实验结果

本节介绍了FDAL的实验评估,包括实验设置和公平的比较协议、特征表示和样本选择的定量分析,以及基于检测性能结果的定性评估。

结论

在本文中,我们提出了FDAL,这是一种解决OD标注成本这一重大挑战的新策略。我们的核心贡献是一种新方法,它通过一种特征难度度量标准有效地统一了分类和定位的不确定性,该度量标准衡量了对象的特征嵌入向类别锚点扰动时其预测的变化。我们已经证明,FDAL不仅在计算上高效,而且在效果上也非常显著,始终达到了SOTA

CRediT作者贡献声明

Duc Tai Phan:撰写——原始草稿、可视化、软件、方法论、调查、形式分析、数据整理、概念化。Nhut Minh Nguyen:撰写——审阅与编辑、撰写——原始草稿、验证。Khang Phuc Nguyen:撰写——审阅与编辑、撰写——原始草稿、调查。Phuong-Nam Tran:撰写——审阅与编辑、验证、软件。Nhat Truong Pham:撰写——审阅与编辑、验证、软件。Linh Le:撰写——审阅与编辑、验证

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号