对象识别是计算机视觉中的一个关键问题,通过深度学习网络学习区分性特征已经取得了显著进展(He, Zhang, Ren, & Sun (2016); Huang, Liu, Van Der Maaten, & Weinberger (2017); Pintelas, Livieris, Kotsiantis, & Pintelas (2023))。然而,这些方法严重依赖于监督学习,而收集标签既耗时又费力(Zhang, Xiang, & Gong (2017)。此外,随着新的增量类别不断出现(Sung et al. (2018)),一些标签难以收集。因此,传统的对象识别方法变得不那么实用。受人类视觉感知的启发,人类视觉感知可以利用已见和未见类别的共享属性(Lampert, Nickisch, & Harmeling (2009))来识别新类别,于是提出了零样本学习(ZSL)(Palatucci, Pomerleau, Hinton, & Mitchell (2009)),这已成为近年来的一个热门研究方向。
在零样本学习(ZSL)中,目标是对训练期间没有数据的未见类别进行分类。更现实的通用零样本学习(Generalized Zero-Shot Learning,GZSL)试图训练分类器来区分已见和未见样本。为此,一种广泛使用的方法是通过利用属性(Farhadi, Endres, Hoiem, & Forsyth (2009); Socher, Ganjoo, Manning, & Ng (2013) 和句子(Reed, Akata, Lee, & Schiele (2016) 等)来转移已见和未见对象的语义知识。在2D图像领域,以往的研究(Akata, Perronnin, Harchaoui, & Schmid (2013); Frome et al. (2013); Liu et al. (2021b))专注于建立已见类别的视觉特征与语义属性嵌入特征之间的关系。后来,一些使用生成模型的特征生成方法(Huang, Wang, Yu, & Wang (2019); Liu et al. (2022); Narayan, Gupta, Khan, Snoek, & Shao (2020); Xian, Lorenz, Schiele, & Akata (2018b); Xian, Sharma, Schiele, & Akata (2019)旨在直接优化真实数据和生成数据之间的问题。
最近,大规模预训练模型(如CLIP (Radford et al. (2021), ULIP (Xue et al. (2023), Point-BERT (Yu et al. (2022))通过整体嵌入改变了零样本学习。然而,它们并没有明确建模ZSL场景中区分相似类别所必需的细粒度区分性部分。尽管在图像ZSL和基础模型方面取得了进展,但3D点云零样本分类的部件级区分性特征学习仍很大程度上未被探索。直接将现有的图像ZSL方法应用于3D点云存在以下关键限制:
(1) 数据结构差异: 与标准网格形式的图像数据(即w × h × c,其中w和h表示特征图的空间大小,c表示特征维度)不同,3D点云的形式为N × c,其中N表示点数。一些研究(如Liu et al. (2021b); Xie et al. (2019))在网络最后一层采用注意力图的方法不适合3D点云。这种强制应用会改变3D点云数据的空间特性,导致特征对齐错误。此外,很难使用GAN方法(Goodfellow et al. (2014); Han, Fu, Chen, & Yang (2021); Xian et al. (2019)生成合成的3D点云特征。这些方法的性能不稳定,且网络难以收敛。
(2) 3D表示与其语义对应物的不匹配: 大多数2D特征提取器是在大规模数据集(如ImageNet (Russakovsky et al. (2015))上预训练的,从而能够有效分离2D特征。相比之下,3D点云数据在获取大规模、高质量的数据集方面面临挑战,因为数据收集复杂且标注成本较高。此外,3D点云的特征提取领域目前缺乏与其2D对应物相同的研究深度和广度,难以提取高度区分性的特征。因此,3D特征通常表现出较少的聚类模式,导致不同类别之间的特征距离较近。如图1所示,较差的3D特征(红色三角形)可能集中在相似的区域,例如椅子和桌子的支柱。当用它们的语义属性对应物进行嵌入时,识别对象会变得模糊。也就是说,从已见样本中学习的模型存在偏差(Cheraghian, Rahman, Campbell, & Petersson (2020))。即使有来自基础模型的强大预训练特征,这些挑战仍然存在——向已见类别的领域偏移以及对明确部件级可迁移性的需求仍然是ZSL的基本问题,仅靠整体嵌入无法完全解决。
我们提出了ExPart3D,这是一个用于3D点云ZSL的专属部分聚合框架。我们的关键见解是:发现空间上具有区分性的专属部分可以实现组合知识转移——已见对象的部分(例如翅膀、腿)重新组合以表示未见类别。专属性确保了互补而非冗余的信息,学习了对有限3D数据具有鲁棒性的可重用部件级原语。我们设计了一个专属部分发现模块,通过差异性学习来识别区分性部分,然后开发了一种结合基于池化的融合和基于图的协作的双分支聚合策略。池化分支提供了适应不规则点云结构的强大全局融合,而图分支模拟了部分之间的空间和外观关系。在三个基准测试中使用多种网络架构进行的广泛实验表明,我们的方法显著优于现有方法。
我们论文的主要贡献如下:
•我们提出了ExPart3D,这是一种用于3D点云ZSL的新颖专属部分聚合框架,通过差异性特征学习发现区分性对象部分,补充了基础模型的细粒度部件级区分能力。
•我们开发了一种有效的双分支聚合策略,结合了基于池化的融合和基于图的协作聚合,以增强专属部分的表示,适应不规则的3D点云结构。
•在三个基准测试上的实验表明,我们的专属部分聚合方法在各种框架上显著优于现有方法,验证了其在增强3D点云ZSL方面的灵活性和互补作用。