CLIP-Mono3D：基于语义-几何相似性的端到端开放词汇单目3D目标检测

《Sensors》：CLIP-Mono3D: End-to-End Open-Vocabulary Monocular 3D Object Detection via Semantic–Geometric Similarity Zichong Gu, Shiyi Mu, Hanqi Lyu and Shugong Xu

【字体：大中小】 时间：2026年04月14日 来源：Sensors 3.5

编辑推荐：

　　当前单目3D目标检测（OV-3DOD）在开放世界场景下面临语义范围有限、依赖外部二维检测器的瓶颈。为此，研究人员提出了一种名为CLIP-Mono3D的端到端单阶段Transformer框架，该框架将视觉-语言语义直接集成到3D检测中，并引入了一个大型基准数据集OV-KITTI。研究结果表明，该方法在开放词汇场景下实现了具有竞争力的性能，为实现通用的单目3D感知迈出了重要一步。

自动驾驶、机器人和增强现实等领域对能够感知和理解复杂三维世界的智能系统需求日益增长。其中，从单个RGB图像中估计物体的三维包围盒，即单目3D目标检测，因其硬件成本低、部署简便而备受关注。然而，这项技术面临两大核心挑战：首先，从单一视角恢复深度信息本身就是一个不适定问题，信息存在缺失；其次，现有的大规模3D标注数据集（如KITTI、nuScenes）语义覆盖范围狭窄，通常只涵盖9到23个与交通相关或室内常见的物体类别。这与覆盖数百个类别的二维检测数据集（如COCO）形成鲜明对比，导致现有3D检测器在开放世界中识别和定位训练集之外物体的能力严重受限。

为弥合这一语义鸿沟，开放词汇3D目标检测应运而生，其目标是让模型能够检测和定位由任意自然语言描述指定的物体，包括训练时未见的类别。然而，现有方法大多采用两阶段范式：首先依赖预训练的2D开放词汇检测器提取语义提议，再输入到类别无关的3D检测器进行几何回归。这种设计不仅严重依赖外部2D检测器及其监督，涉及难以联合优化的多阶段训练流程，而且许多方法还需点云先验或深度估计器，破坏了单目设置的简洁性。尽管有研究尝试引入SAM等基础模型来提供分割先验，但本质上仍未摆脱对预训练2D检测器的依赖，无法实现仅从3D监督进行真正的端到端训练。因此，实现无需辅助2D检测器、多阶段流程或外部深度先验的真正端到端开放词汇3D检测，成为一个亟待解决的关键研究空白。

针对上述问题，刊登于《Sensors》期刊的研究论文提出了CLIP-Mono3D，一个新颖的、可端到端训练的开放词汇单目3D目标检测框架。该研究基于MonoDGP架构，通过利用预训练的FG-CLIP视觉-语言编码器，将语义知识直接集成到3D检测流程中。与先前方法不同，CLIP-Mono3D通过跨模态注意力融合CLIP衍生的视觉-语义特征与几何表征，无需外部2D检测器。通过使用语言嵌入初始化检测查询，该模型实现了对未见类别的零样本泛化。此外，为促进这一方向的研究，作者还引入了OV-KITTI，一个在原始KITTI数据集基础上扩展的新基准，新增了40个物体类别和超过7000个标注的3D包围盒，提供了更丰富的语义、形状和尺度先验，有助于缓解单目设置中固有的深度模糊性问题。

为开展这项研究，作者采用了几个关键技术方法。首先，整个框架基于单阶段Transformer架构MonoDGP进行构建。其次，研究引入了一个跨模态语义-几何融合模块，通过轻量级残差连接将细粒度语义线索注入几何特征。第三，设计了一种新颖的查询初始化策略，将2D语义概率图转换为显式的3D查询位置，以提升开放词汇物体的3D中心定位和召回率。第四，利用了大规模扩展的基准数据集OV-KITTI进行模型训练与评估，该数据集在KITTI基础上新增了40个类别。最后，通过在OV-KITTI、KITTI和Argoverse等多个数据集上进行的大量实验，验证了模型在封闭和开放词汇场景下的性能。

1. 研究结果

1.1 模型整体架构与性能表现

CLIP-Mono3D的整体架构整合了视觉主干网络、预训练的FG-CLIP视觉-语言编码器、跨模态语义-几何融合模块以及语言感知的查询初始化策略。通过在OV-KITTI、KITTI和Argoverse数据集上的广泛实验，该模型在开放词汇场景下显示出具有竞争力的性能。具体而言，在扩展了语义覆盖的OV-KITTI基准上，模型能够有效检测训练时未见的新类别，证明了其零样本泛化能力。在标准的KITTI数据集上，与现有方法相比，CLIP-Mono3D在保持对已知类别检测精度的同时，也展现出了处理更广泛语义类别的潜力。

1.2 跨模态语义-几何融合的有效性

研究通过消融实验验证了所提出的跨模态语义-几何融合模块的关键作用。该模块利用跨模态注意力机制，将来自CLIP的细粒度语义特征与从图像中提取的几何特征进行融合。结果表明，这种融合方式显著增强了模型对物体语义属性的感知，同时不破坏预训练的几何线索，从而提升了在复杂开放词汇场景下的检测准确性和鲁棒性。

1.3 语言感知查询初始化的优势

作者提出的新颖查询初始化策略，将2D语义概率图映射为3D空间中的初始查询位置。与标准的学习查询方法相比，该机制能更有效地定位开放词汇物体的3D中心，并显著提高了对未见类别物体的召回率。这得益于查询初始化过程直接利用了语言嵌入的语义信息，使检测查询从一开始就聚焦于语义显著区域。

1.4 OV-KITTI基准的评估价值

新引入的OV-KITTI数据集不仅提供了更广泛的语义覆盖（总计超过40个类别），还确保了基础类别与新颖类别之间的平衡分布。在该数据集上的实验表明，CLIP-Mono3D能够充分利用额外的语义和尺度先验，有效缓解了单目图像深度估计的模糊性问题，为公平评估开放词汇泛化能力提供了重要平台。

2. 结论与讨论

本研究提出的CLIP-Mono3D框架，在实现端到端开放词汇单目3D目标检测方面迈出了关键一步。其主要贡献在于：第一，提出了一个统一语义与几何推理的端到端框架，通过跨模态语义-几何融合模块，以轻量级残差连接将细粒度语义线索注入几何特征；第二，设计了一种将2D语义概率图转换为3D查询位置的新策略，改善了开放词汇物体的3D中心定位；第三，构建了大规模、语义可控的OV-KITTI基准数据集。

该研究的重要意义在于其推动了单目3D感知向真正开放世界场景的实用化发展。CLIP-Mono3D摒弃了对外部2D检测器、多阶段流水线或外部深度先验的依赖，简化了系统架构，降低了推理延迟，为在自动驾驶、机器人等对实时性和泛化能力要求极高的领域部署通用的3D感知系统提供了新的可能性。同时，OV-KITTI数据集的发布也为后续相关研究提供了重要的评估基准。总之，这项工作通过深度融合视觉语言模型的语义先验与单目3D检测的几何约束，为构建更智能、更通用的环境感知模型开辟了新途径。

热点排行