
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CMPF:为开放词汇分割任务协调跨模型先验融合方法
《INTERNATIONAL JOURNAL OF COMPUTER VISION》:CMPF: Harmonizing Cross-Model Prior Fusion for Open-Vocabulary Segmentation
【字体: 大 中 小 】 时间:2026年05月30日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3
编辑推荐:
摘要开放词汇表分割面临重大挑战,因为它需要在不受限制的环境中,对一系列开放类别中的对象进行分割和识别。在强大的视觉语言(ViL)基础模型(如CLIP)取得成功的基础上,最近的研究尝试利用它们的零样本能力来识别未见过的类别。尽管性能有所提升,但这些模型仍然面临一个关键问题:如何为未
开放词汇表分割面临重大挑战,因为它需要在不受限制的环境中,对一系列开放类别中的对象进行分割和识别。在强大的视觉语言(ViL)基础模型(如CLIP)取得成功的基础上,最近的研究尝试利用它们的零样本能力来识别未见过的类别。尽管性能有所提升,但这些模型仍然面临一个关键问题:如何为未见过的类别和场景生成和识别精确的掩码提案,从而导致分割性能不佳。为了解决这一挑战,我们提出了一种新颖的跨模型先验融合(CMPF)框架。该框架结合了来自定位基础模型(例如SAM)的视觉知识和来自视觉语言模型(例如CLIP)的文本知识,利用它们互补的知识先验来克服掩码提案生成中的固有局限性。以视觉语言模型的视觉编码器作为特征骨干,我们设计了Query Injector和Feature Injector,分别将视觉定位特征注入到可学习的查询中以及CLIP特征中,这些操作都在一个变换器解码器内完成。此外,我们还设计了OpenSeg Ensemble策略,在推理过程中结合SAM的通用分割掩码来进一步提高掩码质量。为了充分利用预训练知识的同时最小化训练开销,我们冻结了两个基础模型,将优化工作重点放在轻量级的变换器解码器上,因为这是性能的瓶颈。大量实验表明,CMPF在各种分割基准测试中取得了最先进的结果,该模型仅使用COCO全景数据进行训练,并以零样本方式进行测试。代码可在https://github.com/chenxi52/CMPF获取。
开放词汇表分割面临重大挑战,因为它需要在不受限制的环境中,对一系列开放类别中的对象进行分割和识别。在强大的视觉语言(ViL)基础模型(如CLIP)取得成功的基础上,最近的研究尝试利用它们的零样本能力来识别未见过的类别。尽管性能有所提升,但这些模型仍然面临一个关键问题:如何为未见过的类别和场景生成和识别精确的掩码提案,从而导致分割性能不佳。为了解决这一挑战,我们提出了一种新颖的跨模型先验融合(CMPF)框架。该框架结合了来自定位基础模型(例如SAM)的视觉知识和来自视觉语言模型(例如CLIP)的文本知识,利用它们互补的知识先验来克服掩码提案生成中的固有局限性。以视觉语言模型的视觉编码器作为特征骨干,我们设计了Query Injector和Feature Injector,分别将视觉定位特征注入到可学习的查询中以及CLIP特征中,这些操作都在一个变换器解码器内完成。此外,我们还设计了OpenSeg Ensemble策略,在推理过程中结合SAM的通用分割掩码来进一步提高掩码质量。为了充分利用预训练知识的同时最小化训练开销,我们冻结了两个基础模型,将优化工作重点放在轻量级的变换器解码器上,因为这是性能的瓶颈。大量实验表明,CMPF在各种分割基准测试中取得了最先进的结果,该模型仅使用COCO全景数据进行训练,并以零样本方式进行测试。代码可在https://github.com/chenxi52/CMPF获取。
生物通微信公众号