现有的无监督显著对象检测(USOD)方法(Guan et al. (2025); Yasarla et al. (2024); Yuan et al. (2024); Zhang et al. (2024b)通常使用基于对比学习的预训练模型(例如MoCo (Chen, Fan, Girshick, & He (2020), DINO (Oquab et al. (2023))进行特征提取,并采用简单的聚类算法或轻量级解码器生成伪标签。虽然这些方法可以有效地学习区分性表示,但它们本质上存在注意力偏见,导致两个关键限制:(1)粗粒度的特征划分导致特征空间中的前景-背景混淆;(2)模型倾向于过分强调前景区域,无法充分建模背景语义信息。这些问题在复杂场景中经常导致背景错误判断——尤其是在对象边界附近,如图1所示。
为了解决背景错误判断问题,可靠的评估指标至关重要。然而,目前专门用于评估背景错误的指标——误报(FP)——无法区分不同空间区域中错误判断的严重程度。在SOD任务中,错误判断靠近前景的区域(即相邻背景)比错误判断远离前景的区域更为关键,因为这些相邻区域在颜色、纹理和空间位置上与前景具有高度相似性。如果模型错误地将它们识别为前景的一部分,可能会导致对象边界模糊和前景扩展等问题,从而降低检测准确性和结构一致性。相比之下,远离前景区域的错误判断对整体显著性分布的影响较小,不太可能扭曲对象的结构完整性。此外,从视觉注意力的角度来看,边界区域表现出显著的分配不确定性。视觉注意力在这些区域中往往竞争性地分配,使得它们在显著对象检测中特别容易发生背景错误判断(von der Heydt (2023))。因此,需要设计一个评估指标,合理量化不同区域的错误判断,以评估模型在现实世界场景中的适用性。