平衡双曲嵌入是天然的分布外检测器

《INTERNATIONAL JOURNAL OF COMPUTER VISION》:Balanced Hyperbolic Embeddings Are Natural Out-of-Distribution Detectors

【字体: 时间:2026年04月08日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐:

  分布外(out-of-distribution,OOD)识别是深度学习中的一个重要且被广泛研究的问题,其目标是过滤掉不属于网络训练分布的样本。本文的核心结论较为直接:优良的层次化双曲嵌入(hyperbolic embedding)更适合区分分布内(in-dis

  
分布外(out-of-distribution,OOD)识别是深度学习中的一个重要且被广泛研究的问题,其目标是过滤掉不属于网络训练分布的样本。本文的核心结论较为直接:优良的层次化双曲嵌入(hyperbolic embedding)更适合区分分布内(in-distribution,ID)样本与分布外(OOD)样本。研究人员提出了平衡双曲学习(Balanced Hyperbolic Learning)。文中给出一种双曲类别嵌入算法,该算法联合优化层次失真(hierarchical distortion)以及浅层且宽广子层级之间的平衡性。随后,研究人员将这些类别嵌入作为双曲原型(hyperbolic prototypes),用于ID数据上的分类。进一步地,论文阐述了如何将已有的OOD评分函数推广到基于双曲原型的情形。在13个数据集和13种评分函数上的实证评估表明,在相同数据和相同骨干网络(backbone)条件下,本文的双曲嵌入优于现有OOD方法。研究还显示,该双曲嵌入优于其他双曲方法,超过当前最先进的对比学习(contrastive learning)方法,并且能够原生支持层次化OOD泛化。
该论文发表于《INTERNATIONAL JOURNAL OF COMPUTER VISION》,聚焦于深度视觉识别中的分布外检测问题。研究背景在于:现实部署中的视觉系统不仅要正确识别训练时见过的分布内类别,还必须在面对未见新类别时识别其“未知”属性,避免以过高置信度将其误判为已知类别。这一能力对于自动驾驶等安全关键场景尤为重要。现有OOD研究已提出大量基于置信度、特征距离或生成建模的判别方法,但越来越多证据表明,决定OOD可分性的并不只是评分函数本身,嵌入空间的几何结构同样至关重要。传统欧氏空间分类器往往难以自然表达类别间的层次关系,而这会限制模型对未知样本的结构化辨别能力。基于此,研究人员提出开展本研究,旨在探索双曲几何是否能够更自然地提供ID/OOD分离所需的结构先验。

论文的基本观点是,双曲空间(hyperbolic space)尤其适合表示层次结构。在Poincaré球(Poincaré ball)中,越靠近边界的点通常对应越具体、越确定的类别表征,而越靠近原点的点往往表示越一般、越不确定的语义层级。这种几何性质与OOD检测需求高度契合:未知样本若与若干已知类别部分相关,可能位于类别簇之间;若与已知类别整体关联较弱,则更应靠近原点。研究人员认为,只要能够学到质量足够高、结构足够均衡的层次化双曲嵌入,就能在不设计全新评分函数的前提下,系统性提升OOD检测性能。

围绕这一目标,研究人员提出平衡双曲学习框架。方法首先利用已知的ID类别层次结构,将类别表示为双曲空间中的原型点;随后训练视觉编码器,使图像特征经指数映射(exponential map)进入Poincaré球后,与其对应类别原型在测地距离(geodesic distance)意义上对齐。与既有双曲层次嵌入方法不同,本文指出既有方法对更深、更宽的子树存在偏置,容易把较小或较浅的子树压向原点,这会削弱OOD样本在原点附近应呈现的“低置信度、均匀分布”性质。为此,论文设计了兼顾层次距离重建与同层节点范数平衡的联合目标,从而得到更公平、更适于OOD检测的类别几何布局。

用于开展研究的主要技术方法可概括如下:其一,基于给定类别层次图,使用图距离与双曲测地距离之间的失真损失(distortion loss)学习类别原型;其二,引入范数损失(norm loss),约束同一层级节点在Poincaré球中的双曲范数保持一致,以缓解不平衡子树偏置;其三,采用固定双曲原型与图像编码器联合训练,利用基于测地距离的交叉熵损失实现样本到原型对齐;其四,将MSP、Energy、ODIN等现有OOD评分函数推广至双曲原型场景,并在OpenOOD协议下,基于CIFAR-100、ImageNet-100及多个近域/远域OOD数据集进行系统评测;此外,层次化OOD泛化实验使用OpenOOD中的CIFAR-100 OSR划分。

在研究结果部分,论文首先报告了“Out-of-distribution comparison for all scoring functions”。该部分通过在CIFAR-100和ImageNet-100上系统比较13种评分函数,证明将标准欧氏分类头替换为双曲原型分类头后,几乎所有评分函数的OOD检测性能均得到提升。无论是FPR@95、AUROC还是AUPR,平衡双曲学习都表现出一致优势。这一结果表明,性能提升并非依赖某一种特定评分策略,而是来自嵌入几何本身的改善。值得注意的是,一些在传统欧氏设定下相对普通的评分函数,在双曲嵌入支持下也能表现出较强的OOD判别能力,说明该方法具有良好的通用增强作用。

在“Comparison to hyperbolic embeddings and networks”部分,研究人员进一步将所提方法与Poincaré Embeddings、Hyperbolic Entailment Cones、Clipped Hyperbolic classifiers和Poincaré ResNet等既有双曲方法比较。结果显示,层次化双曲嵌入整体上就与OOD检测高度匹配,即使某些已有方法在标准分类精度上并不理想,其OOD表现仍然较强。但平衡双曲嵌入在层次失真更低、ID分类性能更稳健的同时,仍取得更优的OOD结果。这说明本文优势不仅在于“使用双曲空间”,更在于通过平衡约束提升了双曲层次表示的结构质量。

在“Comparison to state-of-the-art prototype methods”中,论文比较了CIDER与PALM等先进原型式OOD方法。这些方法通常在超球面(hypersphere)上学习类原型并结合对比损失增强紧致性。本文则直接依据类别层次预先构建双曲原型,并通过测地距离交叉熵进行训练。结果表明,在远域OOD数据上,平衡双曲学习优于这些先进方法;在近域OOD数据上,与PALM大体相当。这说明以层次先验驱动的双曲原型学习,能够在保留简洁训练形式的同时,达到甚至超过复杂对比式方案的效果。

在“Hierarchical Out-of-distribution Detection”部分,研究人员讨论了本文另一项重要贡献,即层次化OOD泛化。这里的目标不仅是判断样本是否为OOD,还要求模型把未知类别映射到已知层次结构中语义上最接近的区域。例如,狐狸虽为未见类别,但应更接近狗或猫,而不是卡车。实验基于CIFAR-100 OSR划分,采用Hierarchical Distance(H-Dist)和Hierarchical Similarity Index(HSI)评估预测类别与真实OOD类别在层次上的接近程度。结果表明,平衡双曲学习不仅能更好地区分近域OOD样本,也能在未知类别无训练监督的情况下,更准确地将其落在恰当的已知语义邻域中,体现了较强的结构化泛化能力。

在“Analyzing the balanced hyperbolic embeddings”中,论文从多个角度解释性能来源。首先,“Effect of distortion and balancing”通过消融实验证明,单纯使用双曲空间就能带来一定提升,而加入基于层次的失真优化与同层范数平衡后,性能进一步稳定增强。这意味着双曲几何、层次重建与平衡约束三者缺一不可。其次,“On bias towards deeper and wider subtrees”通过构造不平衡层次树,展示现有方法会对不同深度和宽度的子树产生表示偏差,而本文方法更能准确恢复原始层次结构。再次,“Motivation for losses”分析指出,失真损失负责维持类别间层级距离关系,范数损失则负责维持相同层级节点到原点距离的一致性,从而避免OOD样本被系统性地偏向某些浅层子树附近。

在“Visualizing learned hierarchies”与“Analyzing the hyperbolic score distributions”中,研究人员通过距离矩阵、层级树可视化、MSP与Energy直方图以及2维Poincaré球密度图,进一步展示了该方法的几何行为。结果显示,ID样本普遍更靠近球边界并聚集在各类别原型附近,而OOD样本更多分布在原点附近或类别簇之间,且其评分分布与ID样本之间具有更清晰的分离边界。这些现象与论文最初的几何假设一致,即双曲空间中的“范数—不确定性”关系为OOD检测提供了天然支持。

在“Ablations of Out-of-Distribution Detection”中,作者还考察了骨干网络、嵌入维度、曲率参数以及原型缩放系数和logit温度等因素。结果表明,该方法在WideResNet、DenseNet-BC等不同骨干上都优于欧氏基线;嵌入维度整体较稳定,64维略优;曲率取时表现最佳;原型缩放与温度参数在较宽范围内都较稳定,说明方法并不依赖精细调参。运行时间分析进一步显示,双曲映射和测地距离计算只引入了较小的训练与推理额外开销,具有实际可用性。

论文讨论部分的核心可概括为:双曲空间并不仅仅是另一种表示空间,而是与OOD检测目标具有内在一致性的几何结构。通过将ID类别以层次化方式布置在Poincaré球中,模型能够自然形成“具体类别位于边界、抽象或未知语义趋向原点”的组织方式。若进一步通过平衡约束消除不平衡层次造成的表示偏差,则这种几何结构会更稳定地转化为OOD可分性提升。论文的广泛实验表明,这种提升对不同评分函数、不同数据集和不同网络骨干都具有一致性,因而具有较强普适性。同时,方法还将传统二元OOD检测推进到更细粒度的层次泛化场景,为未来结构化开放世界识别研究提供了新方向。

研究结论部分可译为:分布外检测是一项困难任务。本文主张采用层次化双曲嵌入来完成这一区分任务。研究人员提出了一种算法,通过平衡的基于失真的目标,利用分布内类别之间的层次关系将其定位为原型。由此,分布内学习转化为双曲空间中的样本到原型优化。研究并未额外设计新的评分函数,而是展示了现有经典函数如何轻松推广到双曲原型情形。在广泛数据集和评分函数上的实验凸显了双曲嵌入在分布外检测中的强大潜力。研究还表明,该方法在完全不了解分布外类别的情况下,能够实现层次化的分布外泛化。总体而言,平衡双曲学习是一种强大且通用的方法,可有效增强分布外检测能力。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号