编辑推荐:
摘要:利用大规模预训练,(Segment Anything Model, SAM)在息肉(Polyp)分割中展现出巨大潜力。已有研究表明SAM高度依赖于高质量提示(Prompt),近期方法引入外部文本描述来自动生成此类提示,但静态的、手工设计的文本难以描述图像
摘要:利用大规模预训练,(Segment Anything Model, SAM)在息肉(Polyp)分割中展现出巨大潜力。已有研究表明SAM高度依赖于高质量提示(Prompt),近期方法引入外部文本描述来自动生成此类提示,但静态的、手工设计的文本难以描述图像特有的细粒度线索,且现有提示生成器往往无法有效对齐文本与视觉特征,导致生成的提示与文本所指区域发生空间错位。本文提出一种文本驱动的基于(Grounded)息肉分割(GPS-SAM, text-driven Grounded Polyp Segmentation-SAM),通过生成可学习文本(learnable text)引导提示生成器(Grounding DINO)产生高精度边界框(Bounding Box)以供SAM进行分割,最终实现自动化标注与分割。为获取能最准确反映图像特征的可学习文本,研究人员初始化一组可学习向量并在训练中优化以拟合任务最优解;进一步设计通用描述注入(Generic Description Injection, GDI)模块,将先验知识注入动态文本,使其覆盖息肉的一般形态学特征以提升鲁棒性。对于特征对齐,(Grounding DINO)采用多层注意力机制耦合输入文本特征与图像特征,生成与文本关注区域最匹配的边界框以指导SAM掩膜(Mask)生成。实验表明,GPS-SAM相较代表性基于文本的自动分割模型性能提升3%,平均Dice系数与交并比(IoU)分别达0.85和0.78,为息肉分割提供了可靠方案。代码将发布于gjw0573/GPS-SAM。
论文解读:GPS-SAM——文本驱动的可学习提示引导SAM结直肠息肉分割
《Neurocomputing》刊载的GPS-SAM研究针对结直肠息肉自动分割中Segment Anything Model(SAM,Segment Anything Model)依赖高质量提示及现有文本驱动提示生成方法存在静态文本表达能力有限、文本—视觉特征对齐不足的问题展开研究。结直肠癌(Colorectal Cancer, CRC)是全球第三大常见恶性肿瘤,结肠镜是筛查金标准,但因黏膜暴露不充分、操作者疏漏及息肉形态颜色异质性与成像伪影,约17%–28%腺瘤被漏诊,亟需计算机辅助诊断。深度学习自动息肉分割可提供精确边界与形态信息以辅助完整切除,SAM经十亿级掩膜预训练具备强泛化能力,但其分割质量对提示(点/框)高度敏感。现有SAM提示生成分两类:基于图像的方法(用CNN分割结果、置信度图、伪标签、热图或网格搜索作提示)缺乏显式语义信息且精度欠佳,网格搜索对小息肉效率低;基于图像—文本的方法引入(Grounding DINO)生成检测框或融合文本—视觉特征,但仍依赖脆弱的静态手工文本模板且无法实现细粒度语义—视觉融合,致预测不准。核心挑战为:(1)静态文本表达力受限,微调自然语言模板无法保证最优表述;(2)文本(深层抽象语义)与视觉(浅层纹理、中尺度结构)特征未在同一细粒度表示空间联合优化对齐。为此,研究人员提出GPS-SAM框架,以可学习文本向量替代静态模板并结合通用描述注入模块增强泛化,利用(Grounding DINO)的多层注意力实现文本—视觉细粒度耦合生成精准边界框提示SAM分割,实验验证其优于现有SOTA方法并具有跨数据集泛化能力。
主要关键技术方法:
研究人员采用六个常用息肉基准数据集——SUN-SEG、CVC-300、CVC-ClinicDB、CVC-ColonDB、ETIS-LaribPolypDB及Kvasir。构建GPS-SAM网络,核心含三点:(1)随机初始化一组可学习向量(learnable vectors)作为文本Token,经梯度反向传播在训练中优化以拟合任务特定最优描述;(2)设计通用描述注入(Generic Description Injection, GDI)模块,将涵盖一般息肉形态学特征的先验知识注入可学习文本编码路径以防过拟合并提升泛化;(3)将图像特征与优化后可学习文本特征输入(Grounding DINO),利用其多层交叉注意力实现文本—视觉特征细粒度对齐与融合并输出最匹配语义的边界框,该框作为提示驱动SAM生成最终分割掩膜(Mask)。推理阶段可学习文本权重固定,自动为所有样本提供相同文本提示。
研究结果
息肉分割方法(Polyp Segmentation Methods): 回顾指出传统专用小模型及近年引入属性文本描述(TGANet)、文本引导扩散模型(ControlPolypNet)等方法,突显引入可学习文本与精细多模态融合的必要性。
方法论(Methodology): GPS-SAM整体流程为息肉图像与可学习文本特征在(Grounding DINO)内充分交互对齐产生语义对应的边界框提示,供SAM完成高精度分割;推理时固定可学习文本权重实现自动化运行。
实验设置(Experiment Settings): 使用上述六大数据集按前人划分训练/测试,保证公平对比。
讨论(Discussion):
- •
朝向语义丰富文本表示(Towards semantically rich text representation):对息肉图像而言,文本信息使模型学习目标语义,可学习文本经连续更新捕获超越静态模板的鲁棒内涵,更好理解复杂内镜图像。
- •
结合GDI模块的细粒度多模态融合克服静态文本局限与特征对齐不足,实现精确分割。
结论(Conclusion):
研究人员提出GPS-SAM——一种文本驱动的基于(Grounded)息肉分割—SAM框架,利用可学习文本描述联合视觉特征实现细粒度多模态融合,获精确鲁棒息肉分割。大量实验证实GPS-SAM在内镜图像上达SOTA性能,具强多模态推理优势与泛化能力,为文本引导息肉分割提供有效框架。平均Dice与IoU分别为0.85与0.78,较代表性基于文本自动分割模型提升3%。
论文作者:Jiawei Gao, Jie Xu, Junhu Fu, Qin Wang, Shengli Lin, Yi Guo, Yuanyuan Wang
基金:国家自然科学基金(62371139, 82570788)及上海市科委(23ZR1445500)资助