CMPF：为开放词汇分割任务协调跨模型先验融合方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《INTERNATIONAL JOURNAL OF COMPUTER VISION》：CMPF: Harmonizing Cross-Model Prior Fusion for Open-Vocabulary Segmentation

【字体：大中小】 时间：2026年05月30日 来源：INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐：

　　摘要开放词汇表分割面临重大挑战，因为它需要在不受限制的环境中，对一系列开放类别中的对象进行分割和识别。在强大的视觉语言（ViL）基础模型（如CLIP）取得成功的基础上，最近的研究尝试利用它们的零样本能力来识别未见过的类别。尽管性能有所提升，但这些模型仍然面临一个关键问题：如何为未

摘要

开放词汇表分割面临重大挑战，因为它需要在不受限制的环境中，对一系列开放类别中的对象进行分割和识别。在强大的视觉语言（ViL）基础模型（如CLIP）取得成功的基础上，最近的研究尝试利用它们的零样本能力来识别未见过的类别。尽管性能有所提升，但这些模型仍然面临一个关键问题：如何为未见过的类别和场景生成和识别精确的掩码提案，从而导致分割性能不佳。为了解决这一挑战，我们提出了一种新颖的跨模型先验融合（CMPF）框架。该框架结合了来自定位基础模型（例如SAM）的视觉知识和来自视觉语言模型（例如CLIP）的文本知识，利用它们互补的知识先验来克服掩码提案生成中的固有局限性。以视觉语言模型的视觉编码器作为特征骨干，我们设计了Query Injector和Feature Injector，分别将视觉定位特征注入到可学习的查询中以及CLIP特征中，这些操作都在一个变换器解码器内完成。此外，我们还设计了OpenSeg Ensemble策略，在推理过程中结合SAM的通用分割掩码来进一步提高掩码质量。为了充分利用预训练知识的同时最小化训练开销，我们冻结了两个基础模型，将优化工作重点放在轻量级的变换器解码器上，因为这是性能的瓶颈。大量实验表明，CMPF在各种分割基准测试中取得了最先进的结果，该模型仅使用COCO全景数据进行训练，并以零样本方式进行测试。代码可在https://github.com/chenxi52/CMPF获取。

联系信箱：

粤ICP备09063491号

摘要

热点排行