ExPart3D：专为零样本点云学习设计的独有部分聚合算法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：ExPart3D: Exclusive Part Aggregation for Zero-shot Point Cloud Learning

【字体：大中小】 时间：2026年04月08日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对3D点云零样本学习中的特征错位和表示模糊问题，本文提出ExPart3D框架，通过部件发现与双分支聚合策略提升分类性能，实验验证其有效性。

云浩|吴佳菊|马忠能|党凌伟|苏玉坤|吴庆尧

华南理工大学，中国广东省广州市广珠高等教育 Mega Center 外环东路382号，邮编510006

摘要

零样本学习（Zero-Shot Learning，ZSL）旨在通过转移语义知识并仅依赖已见过类别的数据来进行训练，从而识别未见过的对象。尽管ZSL在2D图像领域取得了显著进展，但其应用于3D点云仍面临诸多挑战。以往尝试将现有ZSL技术直接应用于3D点云的研究由于结构差异和3D表示的模糊性而遇到困难。为此，我们提出了ExPart3D，这是一种针对零样本3D点云学习的新颖的专属部分聚合框架。我们的方法发现并聚合对象的具有区分性的专属部分，以增强特征表示。具体来说，我们设计了一种利用特征差异来识别专属对象部分的部分发现机制。为了有效聚合这些发现的部分，我们开发了一个双分支聚合模块，其中一个分支用于特征融合，另一个分支用于在激活区域之间传播关系信息。在ModelNet40、McGill和ScanObjectNN数据集上进行的广泛实验表明，我们的方法在三个基准测试中显著优于现有方法，并树立了新的最佳性能标准。

引言

对象识别是计算机视觉中的一个关键问题，通过深度学习网络学习区分性特征已经取得了显著进展（He, Zhang, Ren, & Sun (2016); Huang, Liu, Van Der Maaten, & Weinberger (2017); Pintelas, Livieris, Kotsiantis, & Pintelas (2023)）。然而，这些方法严重依赖于监督学习，而收集标签既耗时又费力（Zhang, Xiang, & Gong (2017）。此外，随着新的增量类别不断出现（Sung et al. (2018)），一些标签难以收集。因此，传统的对象识别方法变得不那么实用。受人类视觉感知的启发，人类视觉感知可以利用已见和未见类别的共享属性（Lampert, Nickisch, & Harmeling (2009)）来识别新类别，于是提出了零样本学习（ZSL）（Palatucci, Pomerleau, Hinton, & Mitchell (2009)），这已成为近年来的一个热门研究方向。

在零样本学习（ZSL）中，目标是对训练期间没有数据的未见类别进行分类。更现实的通用零样本学习（Generalized Zero-Shot Learning，GZSL）试图训练分类器来区分已见和未见样本。为此，一种广泛使用的方法是通过利用属性（Farhadi, Endres, Hoiem, & Forsyth (2009); Socher, Ganjoo, Manning, & Ng (2013) 和句子（Reed, Akata, Lee, & Schiele (2016) 等）来转移已见和未见对象的语义知识。在2D图像领域，以往的研究（Akata, Perronnin, Harchaoui, & Schmid (2013); Frome et al. (2013); Liu et al. (2021b)）专注于建立已见类别的视觉特征与语义属性嵌入特征之间的关系。后来，一些使用生成模型的特征生成方法（Huang, Wang, Yu, & Wang (2019); Liu et al. (2022); Narayan, Gupta, Khan, Snoek, & Shao (2020); Xian, Lorenz, Schiele, & Akata (2018b); Xian, Sharma, Schiele, & Akata (2019）旨在直接优化真实数据和生成数据之间的问题。

最近，大规模预训练模型（如CLIP (Radford et al. (2021), ULIP (Xue et al. (2023), Point-BERT (Yu et al. (2022)）通过整体嵌入改变了零样本学习。然而，它们并没有明确建模ZSL场景中区分相似类别所必需的细粒度区分性部分。尽管在图像ZSL和基础模型方面取得了进展，但3D点云零样本分类的部件级区分性特征学习仍很大程度上未被探索。直接将现有的图像ZSL方法应用于3D点云存在以下关键限制：

(1) 数据结构差异： 与标准网格形式的图像数据（即w × h × c，其中w和h表示特征图的空间大小，c表示特征维度）不同，3D点云的形式为N × c，其中N表示点数。一些研究（如Liu et al. (2021b); Xie et al. (2019)）在网络最后一层采用注意力图的方法不适合3D点云。这种强制应用会改变3D点云数据的空间特性，导致特征对齐错误。此外，很难使用GAN方法（Goodfellow et al. (2014); Han, Fu, Chen, & Yang (2021); Xian et al. (2019）生成合成的3D点云特征。这些方法的性能不稳定，且网络难以收敛。

(2) 3D表示与其语义对应物的不匹配： 大多数2D特征提取器是在大规模数据集（如ImageNet (Russakovsky et al. (2015)）上预训练的，从而能够有效分离2D特征。相比之下，3D点云数据在获取大规模、高质量的数据集方面面临挑战，因为数据收集复杂且标注成本较高。此外，3D点云的特征提取领域目前缺乏与其2D对应物相同的研究深度和广度，难以提取高度区分性的特征。因此，3D特征通常表现出较少的聚类模式，导致不同类别之间的特征距离较近。如图1所示，较差的3D特征（红色三角形）可能集中在相似的区域，例如椅子和桌子的支柱。当用它们的语义属性对应物进行嵌入时，识别对象会变得模糊。也就是说，从已见样本中学习的模型存在偏差（Cheraghian, Rahman, Campbell, & Petersson (2020)）。即使有来自基础模型的强大预训练特征，这些挑战仍然存在——向已见类别的领域偏移以及对明确部件级可迁移性的需求仍然是ZSL的基本问题，仅靠整体嵌入无法完全解决。

我们提出了ExPart3D，这是一个用于3D点云ZSL的专属部分聚合框架。我们的关键见解是：发现空间上具有区分性的专属部分可以实现组合知识转移——已见对象的部分（例如翅膀、腿）重新组合以表示未见类别。专属性确保了互补而非冗余的信息，学习了对有限3D数据具有鲁棒性的可重用部件级原语。我们设计了一个专属部分发现模块，通过差异性学习来识别区分性部分，然后开发了一种结合基于池化的融合和基于图的协作的双分支聚合策略。池化分支提供了适应不规则点云结构的强大全局融合，而图分支模拟了部分之间的空间和外观关系。在三个基准测试中使用多种网络架构进行的广泛实验表明，我们的方法显著优于现有方法。

我们论文的主要贡献如下：

•

我们提出了ExPart3D，这是一种用于3D点云ZSL的新颖专属部分聚合框架，通过差异性特征学习发现区分性对象部分，补充了基础模型的细粒度部件级区分能力。

•

我们开发了一种有效的双分支聚合策略，结合了基于池化的融合和基于图的协作聚合，以增强专属部分的表示，适应不规则的3D点云结构。

•

在三个基准测试上的实验表明，我们的专属部分聚合方法在各种框架上显著优于现有方法，验证了其在增强3D点云ZSL方面的灵活性和互补作用。

部分摘录

图像零样本学习

零样本学习在对象识别中受到了广泛关注（Akata, Perronnin, Harchaoui, & Schmid (2015a); Ding, Wang, & Lu (2019); Dong, Fu, Hwang, Sigal, & Xue (2022); Liu, Dong, & Hu (2021a); Ye & Guo (2017）。早期的方法（Akata et al. (2013); Akata, Reed, Walter, Lee, & Schiele (2015b); Fu, Hospedales, Xiang, Fu, & Gong (2014); Fu, Xiang, Kodirov, & Gong (2015b）将视觉样本和语义属性嵌入到共享空间中，但由于依赖性而存在领域偏移问题

符号说明

为了清晰起见，表1总结了本文中使用的所有关键符号。

初步介绍

在零样本学习中，训练集包含M个源类别，称为已见类别，表示为

Y^{S}

，以及N个目标类别，称为未见类别，表示为

Y^{U}

。这些源类别和目标类别是互斥的，即

Y^{S}

∩

Y^{U}

= ?。属于源类别的对象表示为

X^{S}

{(x_{i}^{s}, y_{i}^{s}),y_{i}^{s}\inY^{S}}^{i = 1 M}

，其中x_i是对象视觉样本，y_i是其对应的标签。

数据集

我们的方法在三个3D数据集上进行了全面评估：ModelNet40（Wu et al. (2015)）、McGill（Siddiqi et al. (2008）和ScanObjectNN（Uy, Pham, Hua, Nguyen, & Yeung (2019)）。在进行ModelNet40和McGill基准测试时，我们严格遵循Cheraghian et al. (2020)建立的已见/未见类别划分。在此背景下，已见类别指的是ModelNet40中不存在于ModelNet10中的30个类别，而未见类别则包括那些被选中的类别

结论

在本文中，我们提出了ExPart3D，这是一个用于3D点云零样本学习的专属部分聚合框架。我们的方法通过差异性特征学习发现区分性专属部分，并通过结合基于池化的融合和基于图的协作聚合的双分支策略进行聚合。在三个基准测试和四种框架上的实验表明，我们的方法在ZSL性能上达到了最佳水平，并在GZSL结果上也具有竞争力，验证了其有效性和

CRediT作者贡献声明

云浩：概念化、方法论、软件、撰写——原始草稿、撰写——审阅与编辑。吴佳菊：概念化、方法论、软件、撰写——原始草稿、撰写——审阅与编辑。马忠能：概念化、方法论、撰写——原始草稿、撰写——审阅与编辑。党凌伟：概念化、方法论、撰写——原始草稿、撰写——审阅与编辑。苏玉坤：概念化、方法论、软件、撰写——原始草稿。吴庆尧：

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言