CMPF:为开放词汇分割任务协调跨模型先验融合方法

《INTERNATIONAL JOURNAL OF COMPUTER VISION》:CMPF: Harmonizing Cross-Model Prior Fusion for Open-Vocabulary Segmentation

【字体: 时间:2026年05月30日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐:

  摘要开放词汇表分割面临重大挑战,因为它需要在不受限制的环境中,对一系列开放类别中的对象进行分割和识别。在强大的视觉语言(ViL)基础模型(如CLIP)取得成功的基础上,最近的研究尝试利用它们的零样本能力来识别未见过的类别。尽管性能有所提升,但这些模型仍然面临一个关键问题:如何为未

  

摘要

开放词汇表分割面临重大挑战,因为它需要在不受限制的环境中,对一系列开放类别中的对象进行分割和识别。在强大的视觉语言(ViL)基础模型(如CLIP)取得成功的基础上,最近的研究尝试利用它们的零样本能力来识别未见过的类别。尽管性能有所提升,但这些模型仍然面临一个关键问题:如何为未见过的类别和场景生成和识别精确的掩码提案,从而导致分割性能不佳。为了解决这一挑战,我们提出了一种新颖的跨模型先验融合(CMPF)框架。该框架结合了来自定位基础模型(例如SAM)的视觉知识和来自视觉语言模型(例如CLIP)的文本知识,利用它们互补的知识先验来克服掩码提案生成中的固有局限性。以视觉语言模型的视觉编码器作为特征骨干,我们设计了Query Injector和Feature Injector,分别将视觉定位特征注入到可学习的查询中以及CLIP特征中,这些操作都在一个变换器解码器内完成。此外,我们还设计了OpenSeg Ensemble策略,在推理过程中结合SAM的通用分割掩码来进一步提高掩码质量。为了充分利用预训练知识的同时最小化训练开销,我们冻结了两个基础模型,将优化工作重点放在轻量级的变换器解码器上,因为这是性能的瓶颈。大量实验表明,CMPF在各种分割基准测试中取得了最先进的结果,该模型仅使用COCO全景数据进行训练,并以零样本方式进行测试。代码可在https://github.com/chenxi52/CMPF获取。

开放词汇表分割面临重大挑战,因为它需要在不受限制的环境中,对一系列开放类别中的对象进行分割和识别。在强大的视觉语言(ViL)基础模型(如CLIP)取得成功的基础上,最近的研究尝试利用它们的零样本能力来识别未见过的类别。尽管性能有所提升,但这些模型仍然面临一个关键问题:如何为未见过的类别和场景生成和识别精确的掩码提案,从而导致分割性能不佳。为了解决这一挑战,我们提出了一种新颖的跨模型先验融合(CMPF)框架。该框架结合了来自定位基础模型(例如SAM)的视觉知识和来自视觉语言模型(例如CLIP)的文本知识,利用它们互补的知识先验来克服掩码提案生成中的固有局限性。以视觉语言模型的视觉编码器作为特征骨干,我们设计了Query Injector和Feature Injector,分别将视觉定位特征注入到可学习的查询中以及CLIP特征中,这些操作都在一个变换器解码器内完成。此外,我们还设计了OpenSeg Ensemble策略,在推理过程中结合SAM的通用分割掩码来进一步提高掩码质量。为了充分利用预训练知识的同时最小化训练开销,我们冻结了两个基础模型,将优化工作重点放在轻量级的变换器解码器上,因为这是性能的瓶颈。大量实验表明,CMPF在各种分割基准测试中取得了最先进的结果,该模型仅使用COCO全景数据进行训练,并以零样本方式进行测试。代码可在https://github.com/chenxi52/CMPF获取。

相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号