少样本提示微调增强病理基础模型在罕见癌症亚型分型的应用:空间感知视觉聚合与跨模态推理研究

《Nature Communications》:Boosting pathology foundation models via few-shot prompt-tuning for rare cancer subtyping

【字体: 时间:2026年04月12日 来源:Nature Communications 15.7

编辑推荐:

  针对罕见癌诊断专家匮乏、现有多示例学习(MIL)依赖单一视觉特征且缺乏可解释性等问题,本研究提出PathPT框架,通过空间感知视觉聚合与任务特定提示微调挖掘病理视觉-语言模型的潜力。该方法将全切片图像(WSI)级监督转化为细粒度组织切片级引导,在11个数据集涵盖56种亚型、3958例WSI中验证其在数据稀缺场景下的优异性能,显著提升亚型分类精度与肿瘤区域定位能力,为罕见癌精准诊疗提供可扩展AI方案。

  
在肿瘤诊疗体系中,罕见癌症约占所有恶性肿瘤的20%–25%,儿科肿瘤中比例更超过70%。这类疾病因患者基数小、临床经验分散,长期面临“确诊难”困境——基层医院病理医生接触病例有限,而顶尖专家资源高度集中。传统病理诊断依赖医生在高倍显微镜下逐区域观察组织切片,主观性强且效率低。近年来,基于深度学习的病理人工智能(AI)在常见癌种(如乳腺癌、肺癌)分类中表现亮眼,尤其是视觉-语言模型(Vision-Language Models)展现出无需大量标注即可泛化的零样本(Zero-Shot)潜力。然而,罕见癌的病理形态异质性大、公开数据稀缺,现有模型往往“水土不服”:要么因训练样本不足过拟合,要么忽视组织结构的空间上下文,导致亚型判别模糊。更棘手的是,主流多示例学习(Multi-Instance Learning, MIL)方法仅利用视觉特征,丢弃了丰富的文本先验(如病理报告中的描述逻辑),既限制了知识迁移,又让模型决策像“黑箱”,难以满足临床对可解释性的硬需求。如何在少样本条件下,让AI既懂“看切片”,又能“结合医学知识推理”,成为破题关键。
为此,研究团队提出PathPT框架,核心思路是将通用病理视觉-语言基础模型适配到罕见癌场景:通过空间感知机制保留组织切片的拓扑结构,再用任务导向的提示微调(Prompt-Tuning)激活跨模态知识,最终实现从全切片图像(Whole Slide Image, WSI)级别到组织切片(Tile)级别的细粒度监督转化。这项工作发表于《Nature Communications》,不仅填补了罕见癌少样本分型的算法空白,更为病理AI从“辅助筛查”迈向“可信决策”提供了方法论支撑。
研究采用的关键技术包括:① 基于Transformer架构的空间感知视觉聚合模块,将高分辨率WSI切割为序列化组织切片嵌入,保留相对空间坐标;② 任务特定的可学习提示微调策略,动态对齐视觉特征与病理语义(如免疫组化标记物描述);③ 弱监督损失设计,利用仅有的WSI级标签反推切片级肿瘤概率,生成像素级热力图实现病灶定位;④ 跨数据集验证体系,覆盖胃肠道间质瘤、小儿肉瘤等8类罕见癌及3类常见癌,共3958份WSI、56种亚型,严格模拟真实世界数据稀缺场景。

空间感知聚合增强视觉表征

通过对比实验发现,直接平均池化组织切片特征会抹除肿瘤的空间分布线索(如边界浸润模式)。PathPT引入基于注意力权重的空间聚合器,使模型聚焦于形态异常区域。在横纹肌肉瘤亚型区分中,该方法比标准MIL的视觉注意力更贴合病理医生的显微镜视野,F1分数提升14.7%。

提示微调解锁跨模态泛化

固定预训练模型参数,仅优化连续提示向量。结果显示,加入“黏液样纤维肉瘤伴圆细胞分化”等病理描述提示后,模型在未见过的小儿肿瘤样本上分类准确率较零样本基线提高22.3%。消融实验证实,提示词越贴近病理术语体系,跨癌种泛化能力越强。

细粒度监督实现病灶定位

将WSI级标签软分配到数千个组织切片,训练后的热力图中高响应区与实际肿瘤巢重合率达83.6%。在甲状腺低分化癌与良性结节鉴别中,模型成功圈定核分裂象活跃区,为医生复查提供明确指引,避免过度诊断。

少样本性能超越主流方案

在每类仅有5–10例训练样本的设置下,PathPT在8个罕见癌数据集上的平均准确率达78.9%,优于CLIP-Path等通用模型(62.1%)及TransMIL等纯视觉方法(71.4%)。即便在弥漫大B细胞淋巴瘤等常见癌中,其亚型区分AUC仍保持领先,证明方法普适性。
研究表明,PathPT通过视觉-语言协同的少样本适应策略,有效缓解了罕见癌数据匮乏瓶颈。其最大创新在于打破“视觉特征+简单池化”的传统范式,用提示工程将病理知识注入AI推理链,使模型具备类人的“看图说话”能力——既能识别细胞形态细节,又能关联临床亚型定义。更重要的是,生成的切片级热力图实现了“决策可视化”,让医生能追溯模型判断依据,符合医疗AI监管要求。未来若整合多中心异构数据,有望构建面向长尾疾病的病理基础模型生态,降低罕见癌诊断对专家资源的依赖,助力分级诊疗落地。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号