3D-STMN++：利用语义代理提升超点与文本的匹配能力，以辅助3D参考表达式的分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：3D-STMN++: Leveraging semantic proxies to enhance superpoint-text matching for 3D Referring Expression Segmentation

【字体：大中小】 时间：2026年04月29日 来源：Pattern Recognition 7.6

编辑推荐：

　　吴长利|陈琦|季佳仪|刘一航|马一伟|孙晓帅|曹柳娟中国教育部多媒体可信感知与高效计算重点实验室，厦门大学，厦门，361005 **摘要** 在3D指称表达式分割（3D-RES）中，传统方法遵循两阶段流程：首先生成分割提案，然后将它们与指称表达式进行匹配。然而，这

　　吴长利|陈琦|季佳仪|刘一航|马一伟|孙晓帅|曹柳娟
中国教育部多媒体可信感知与高效计算重点实验室，厦门大学，厦门，361005

**摘要**
在3D指称表达式分割（3D-RES）中，传统方法遵循两阶段流程：首先生成分割提案，然后将它们与指称表达式进行匹配。然而，这种方法面临关键挑战，包括初始提案质量低和推理速度慢。为了解决这些问题，我们提出了一种新颖的端到端Superpoint-Text匹配网络（3D-STMN），该网络通过依赖关系驱动的洞察力进行了增强。我们模型的核心是Superpoint-Text匹配（STM）机制，它直接将语言线索与语义相关点的簇（superpoints）对齐，从而绕过了对实例提案的需求。为了进一步改进文本在分割中的指导作用，我们引入了依赖关系驱动的交互（DDI）来增强对指称表达式的语义理解。此外，我们基于代理学习范式设计了一个语义代理模块（SPM），通过结合关键语义类别作为指导信号来更好地识别目标对象。广泛的实验表明，我们的模型创造了新的性能记录，与传统方法相比，显著提高了mIoU并大幅提升了推理速度。代码和模型可在以下链接获取：https://github.com/sosppxo/3D-STMN

**引言**
3D视觉接地试图通过解释自然语言描述来定位3D场景中的特定对象[1]，[2]。由于其在自主机器人、人机交互和自动驾驶技术等领域的广泛应用，这一研究领域近年来受到了广泛关注。在这些挑战中，3D指称表达式分割（3D-RES）因其复杂性而尤为突出。与3D对象检测任务[3]，[4]，[5]，[6]，[7]不同，后者专注于使用边界框来定位对象，3D-RES需要从稀疏点云中识别目标实例并为每个检测到的实例生成精确的3D掩码。

**先前方法**
[8]，[9]，[10]主要采用两阶段框架。首先，一个与文本无关的分割模型生成实例提案。然后，使用图神经网络（GNN）或变换器将这些提案与相应的指称表达式相关联，如图1-(a)所示。尽管这种方法有效，但它存在三个显著限制：（1）分割和匹配的解耦依赖于初始的与文本无关的分割。此阶段的任何错误或遗漏都可能严重损害后续匹配过程的准确性，无论其复杂性如何。（2）该模型忽略了指称表达式中固有的层次结构和依赖关系。其线性语言建模方法无法捕捉复杂的语义关系，这阻碍了准确的定位和分割。（3）为了提高召回率，第一阶段采用迭代聚类来生成密集的候选掩码，这一过程显著降低了推理速度。因此，尽管这种两阶段方法（包括TGNN [8]）具有优势，但在提高准确性和效率方面仍有很大的潜力。

**更直观和简化的方法**
采用一种端到端框架，直接将文本特征与3D点云中的点对齐，如图1-(b)所示。这种方法在2D-RES任务中取得了显著成功[11]。然而，当扩展到3D点云数据的稀疏和不规则性质时，它通常会遇到召回率低的问题。为了解决这个问题，3D-SPS [12]在3D视觉检测中引入了一种方法，该方法根据语言线索逐步选择关键点，然后使用这些关键点来回归边界框。虽然这种技术对检测目的有效，但它破坏了3D-RES任务中3D掩码的连续性，从而降低了分割质量。

**为了克服上述挑战，我们引入了Superpoint-Text匹配网络（3D-STMN）进行端到端的3D指称表达式分割（3D-RES），并进一步通过语义代理模块（Semantic Proxy Module）进行了增强，形成了3D-STMN++。我们方法的核心创新在于将指称表达式与过度分割的superpoints对齐[13]。如图1-(c)所示，这些superpoints最初是通过聚类算法生成的，该算法产生细粒度的语义单元。这些包含语义信息的superpoints数量远少于典型3D点云中的无序点，从而提高了匹配过程的效率和准确性。与TGNN中使用的粗略实例提案相比，superpoints通过全面覆盖整个场景提供了更精确的分割，有效缓解了分割不准确或遗漏实例的问题。**

**为了实现这一点，我们为3D-RES引入了Superpoint-Text匹配（STM）机制，该机制从superpoints聚合文本特征以生成目标实例的掩码。为了进一步从语言角度增强语义解析，我们开发了依赖关系驱动的交互（DDI）模块，该模块支持令牌级别的交互。该模块利用依赖语法树的先验知识来指导文本信息的流动。通过建模各种实例之间的关系，DDI模块显著增强了网络的分割能力，从而得到更准确和上下文感知的结果。**最后，为了有效确定较长文本描述中的核心目标，我们提出了语义代理模块（SPM）。该模块结合了多个代理，通过简单的分类任务帮助模型识别关键目标词，从而将信息流向目标，如图2所示。这种有针对性的指导显著提高了文本引用目标分割的准确性。在ScanRefer数据集上进行的广泛定量和定性实验验证了我们方法的有效性。值得注意的是，我们的方法将推理速度提高了95.7倍，并在准确性上比TGNN高出14.1个百分点。**

**总结**
我们的主要贡献如下：
- 我们提出了一个名为3D-STMN++的高效端到端框架，该框架基于Superpoint-Text匹配（STM）机制。该框架将superpoints与文本模态对齐，使superpoints成为多模态表示中的竞争性元素。
- 我们引入了依赖关系驱动的交互（DDI），该机制利用依赖语法树的先验知识来指导文本信息的流动，显著提升了模型的分割性能。
- 我们设计了语义代理模块（SPM），该模块通过代理学习使模型能够在没有显式位置监督的情况下识别关键语义词并关注核心名词，从而提高了目标分割的准确性。

**本文是我们之前会议版本[14]的扩展。当前工作在初始版本的基础上进行了几项重要改进。首先，如图2所示，我们通过提出语义代理模块（SPM）解决了STMN在有效识别目标名词方面面临的挑战。SPM定位关键名词并无缝集成到网络中，以指导信息流向它们，从而实现复杂的多模态分割。其次，我们进行了消融研究，从定量和定性角度分析了SPM的有效性。最后，我们在Nr3D [2]和Sr3D [2]数据集上进行了额外实验，证明了我们方法的泛化能力。**

**部分片段**
**2D指称表达式理解与分割**
视觉和语言是人类认知的基本组成部分，在感知和理解周围环境方面发挥着关键作用。在2D指称表达式理解（2D-REC）任务的特定背景下，主要目标是预测与给定指称表达式描述的对象准确对应的边界框[15]。相比之下，2D指称表达式分割（2D-RES）任务旨在生成精确的分割掩码。

**方法**
在本节中，我们全面概述了3D-STMN++。该框架如图3所示。

**实验设置**
我们使用预训练的Sparse 3D U-Net来提取逐点特征[28]。同时，我们采用预训练的BERT作为文本编码器，遵循[8]中的设置。网络的其余部分从零开始训练。初始学习率为0.0001。为了在训练期间优化这个率，我们实施了PolyRL策略，学习率以4.0的衰减功率进行调整。STM中S?rel的数量krel设置为512。多轮次数L为6。批量大小为16。

**结论**
我们提出了3D-STMN++，这是一种高效且密集对齐的端到端方法，用于3D-RES。通过采用Superpoint-Text匹配（STM）机制，我们的模型成功摆脱了传统两阶段范式的限制。这使我们能够利用端到端的密集监督，充分利用精确的分割和快速的推理速度。此外，提出的依赖关系驱动的交互（DDI）模块显著增强了模型对指称表达式的理解。

**讨论**
虽然3D-STMN++实现了最先进的性能并显著提高了推理速度，但它仍具有当前3D指称表达式分割（3D-RES）范式所固有的某些限制。识别这些挑战对于指导该领域的未来研究至关重要。首先，当前的方法主要局限于单目标分割。现有的基准测试和模型假设指称表达式在场景中仅对应一个对象。

**作者贡献声明**
吴长利：撰写——审阅与编辑、撰写——原始草稿、可视化、验证、方法论、调查、形式分析、数据管理、概念化。
陈琦：撰写——审阅与编辑、撰写——原始草稿、可视化。
季佳仪：撰写——审阅与编辑、撰写——原始草稿、监督、软件、资源、项目管理、方法论、调查、概念化。
刘一航：撰写——审阅与编辑、撰写——原始草稿、可视化、利益冲突声明

我们声明在提交本手稿时不存在利益冲突，所有作者都批准了其发表。
吴长利于2022年在中国厦门大学获得学士学位，目前正在厦门大学攻读博士学位。他在多个国际知名会议上发表了4篇以上论文，包括IEEE模式分析与机器智能交易（TPAMI）、神经信息处理系统（NeurIPS）、人工智能促进协会（AAAI）和ACM多媒体（MM）等。他的主要研究兴趣在于……

联系信箱：

粤ICP备09063491号

热点排行