《Image and Vision Computing》:Topology-enhanced prototypes with geometric self-adaptation for few-shot 3D point cloud semantic segmentation
编辑推荐:
针对少样本3D点云分割中支持样本结构不一致和查询样本局部复杂度问题,本文提出TopoProto框架。通过拓扑持久同性优化原型表示,结合硬样本校正机制利用局部密度和曲率特征,有效提升分割精度,并在多个基准数据集上验证优于现有方法。
王清正|李宁|谢家志|王星琴|刘文辉|梅增伟
华北水利水电大学信息工程学院,中国河南省郑州市金水区博学路136号,450046
摘要
少样本3D点云分割(FS-PCS)旨在仅使用有限数量的标注样本来对新类别进行语义分割。然而,由于采样误差和类别内差异,同一类别的支持样本通常表现出显著的结构差异,使得它们的原型表示不足以捕捉类别内的多样结构模式,从而限制了它们在指导查询分割方面的有效性。为了解决这个问题,我们提出了TopoProto,这是一个基于拓扑的优化框架,包括:(1)拓扑引导的原型细化(TPR),它利用持久同调来增强原型的稳定性和区分性;(2)难样本校正(HSC),它识别查询中的不稳定区域并通过密度和曲率线索来细化几何特征;以及(3)拓扑感知优化(TAO),它通过两个辅助损失来监督结构一致性和特征校正。通过同时处理全局结构和局部难度,TopoProto在多个FS-PCS基准测试中取得了优于现有方法的性能。
引言
点云语义分割是3D计算机视觉中的一个基本任务,在自动驾驶[1]、[2]、机器人感知[3]、[4]和虚拟/增强现实[5]、[6]等场景中有着广泛的应用。这些应用不仅要求高精度,还要求实时性能,这对算法设计提出了相当大的挑战。尽管深度学习方法在点云分割[7]、[8]、[9]、[10]、[11]方面取得了显著进展,但它们的成功在很大程度上依赖于大规模的标注数据集,而这些数据集的收集既费时又昂贵。此外,这类模型往往难以泛化到未见过的对象类别[12]。
为了降低标注成本并提高跨类别泛化能力,少样本3D点云语义分割(FS-PCS)受到了越来越多的关注。FS-PCS旨在仅使用少量标注样本来分割未见过的类别,这既具有实际意义,也带来了技术挑战。当前的主流方法通常采用原型学习框架[13]、[14]、[15]、[16]、[17],其中从支持集中提取类别原型来指导查询集的分割。
然而,同一类别的支持样本之间的结构不一致性是一个关键问题,这削弱了原型的表示能力并降低了下游分割的准确性。这些不一致性主要来源于两个方面:
- •
采样误差:点云采集过程容易受到遮挡、视角限制和传感器噪声的影响,导致形状不完整和点分布不均匀。此外,为了适应网络输入,大规模场景通常使用滑动窗口进行裁剪,这可能会破坏对象结构并导致形状不连续;
- •
类别内变异:即使在同一类别内,结构组成也可能有很大差异,从而导致明显的形状差异,进一步加剧了支持样本之间的结构不一致性。
如图1所示,当支持集包含同一类别中结构多样的样本(例如,样本A与样本C)时,直接通过掩蔽平均池化提取原型往往会产生模糊或稀释的表示,无法捕捉到共同的类别特征。这不仅抑制了关键的几何线索,也削弱了模型的泛化能力。
尽管像CSeg [15]这样的方法试图通过多原型机制来缓解这个问题,但由此导致的计算和内存成本增加限制了它们的实用性。这引出了一个核心问题:我们能否在不显著增加模型复杂性的情况下,通过引入结构感知来增强原型的稳定性?
除了支持样本之间的不一致性之外,查询点云通常还包含局部复杂和几何上模糊的区域,这进一步挑战了基于原型的匹配机制。在现实世界的点云中,某些目标区域可能由于密度稀疏、边界不明确或曲率突变而表现出拓扑不稳定性。具体来说,这些区域在原始空间中存在显著的不确定性,使得传统的基于相似性的匹配方法难以准确地将它们与支持原型关联起来,从而导致预测偏差。
因此,我们提出了TopoProto,这是一个基于拓扑的统一框架,通过两种有针对性的机制同时解决了两个主要挑战:(1)支持样本之间的不稳定结构特征,以及(2)查询集局部区域的模糊预测。
我们的贡献总结如下:
- •
我们识别并解决了少样本3D点云分割中的两个未充分探索的挑战:支持样本之间的结构不一致性和复杂查询区域中的拓扑不稳定性。
- •
我们提出了一个基于拓扑的框架TopoProto,它通过持久同调引入拓扑摘要来细化原型,并采用由局部几何和拓扑线索引导的难样本校正机制。
- •
广泛的实验表明,我们的方法在结构变化严重的场景中始终优于之前的方法,验证了我们基于拓扑的增强设计的有效性。
部分摘录
少样本3D点云分割
少样本3D点云分割(FS-PCS)作为一种有前景的解决方案,通过学习从有限的标注样本中进行泛化来减轻数据标注负担。虽然少样本学习在2D视觉任务[18]、[19]、[20](如分类和语义分割)中得到了广泛探索,但由于3D数据本身的不规则性和稀疏性,其扩展到3D点云的研究仍然相对较少。赵等人首次提出了AttMPTI [13],该框架遵循
方法
我们提出的TopoProto由两个关键模块组成:拓扑引导的原型细化(TPR)和难样本校正(HSC)。整个框架如图2所示。TPR模块从支持集中提取拓扑特征,以纠正原型中的几何偏差并增强其结构表示。HSC模块识别查询样本中的拓扑不稳定区域,并使用局部密度和曲率进行几何感知的特征校正
数据集和设置
我们在两个广泛使用的3D语义分割基准测试S3DIS [39]和ScanNet [40]上进行了实验。遵循[15]介绍的标准预处理流程,每个点云通过滑动窗口策略被划分为更小的块。S3DIS共有7547个块,ScanNet共有36,350个块。对于每个块,我们随机抽取最多20,480个点并进行体素化,以使块间的点密度标准化。特征提取使用前两个
超参数对性能的影响
我们评估了难样本阈值和拓扑描述符(TDs)的数量对模型复杂性(FLOPs)和分割准确性(mIoU)的影响。图8中的趋势显示了计算成本和准确性之间的明显权衡。
难样本阈值()从0.1增加到0.5时,S3DIS上的模型FLOPs从22.73 G降低到20.7 G,表明更高的阈值可以使模型更轻量。然而,分割准确性在时达到峰值,此时mIoU
结论
本文解决了少样本3D点云语义分割(FS-PCS)中的两个主要挑战:同一类别支持样本内的结构不一致性和由掩蔽平均池化(MAP)引起的原型过度平滑效应。为了解决这些问题,我们提出了TopoProto,这是一个基于拓扑的优化框架,它利用持久同调来增强原型的稳定性。此外,难样本校正模块根据局部密度对模糊的查询区域进行细化
CRediT作者贡献声明
王清正:撰写——审稿与编辑、资源整理、概念化。李宁:撰写——审稿与编辑、初稿撰写、可视化、验证、项目管理、方法论、调查、形式分析、数据整理、概念化。谢家志:撰写——审稿与编辑、初稿撰写、可视化、软件开发、方法论、数据整理。王星琴:撰写——审稿与编辑、验证、概念化。刘文辉:初稿撰写
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:王清正报告获得了国家自然科学基金的支持。王清正还报告获得了河南省高等学校重点科研项目的支持。如果有其他作者,他们声明没有已知的财务利益或个人关系
致谢
本工作得到了国家自然科学基金[61702185]和河南省高等学校重点科研项目[18A520034]的支持。