面向病理图像分析的领域特定自监督对比学习与对比感知对细化方法

《Big Data Mining and Analytics》:Domain-Specific Self-Supervised Contrastive Learning with Contrast-Aware Pair Refinement for Pathological Image Analysis

【字体: 时间:2026年05月28日 来源:Big Data Mining and Analytics 6.2

编辑推荐:

  深度学习为计算病理学(Computational Pathology)带来了显著进展,但其性能受限于对大规模精确标注数据集的依赖,而获取高质量病理标注需要大量时间与专家经验,成本高昂。自监督学习(Self-Supervised Learning, SSL)提供

  
深度学习为计算病理学(Computational Pathology)带来了显著进展,但其性能受限于对大规模精确标注数据集的依赖,而获取高质量病理标注需要大量时间与专家经验,成本高昂。自监督学习(Self-Supervised Learning, SSL)提供了一种从无标注病理图像中学习判别性表征的有效范式。然而,现有的SSL方法常忽略病理图像的领域特定特征,并受到低质量负样本的不利影响,导致学习到的特征表征对下游任务而言并非最优。为克服这些局限,研究人员提出了一种新颖的领域特定自监督对比学习(Domain-Specific Self-Supervised Contrastive Learning, DSSCL)框架,该框架包含两个创新组件:(1)一个基于染色分离的数据增强(Stain-Separation Based Data Augmentation, SSDA)模块,通过融合染色分离的成分与原始苏木精-伊红(Hematoxylin and Eosin, H&E)图像来增强染色感知的表征学习;(2)一个对比感知对细化(Contrast-Aware Pair Refinement, CAPR)模块,通过过滤潜在正样本并挖掘困难负样本来提高特征判别力,从而减轻低质量负样本的影响。大量实验表明,仅使用0.1%的标注数据,DSSCL在分类任务上即可达到与使用10%标注数据的ImageNet预训练模型微调后相当的准确率,同时在检测和分割任务上也展现出有竞争力的性能,这凸显了其学习可迁移且鲁棒的特征表征的能力,能够适应多样化的下游任务。相关代码可在https://github.com/junjianli106/DSSCL获取。
本文介绍了一项针对病理图像分析任务设计的新型自监督对比学习框架的研究。在计算病理学领域,深度学习已成为一种关键方法,并在腺体与细胞核分割、乳腺癌分类等应用中取得了显著进展。与传统手工特征提取方法相比,卷积神经网络(Convolutional Neural Networks, CNNs)能够自动学习具有强判别能力的层次化特征表示。然而,深度学习模型的性能高度依赖于大规模、精确标注的数据集。在病理学中,获取高质量标注是一个主要挑战,需要资深病理医生投入大量时间和专业知识。

为解决标注数据有限的问题,迁移学习范式,即利用大规模自然图像数据集(如ImageNet)进行预训练,已成为病理图像分析的关键解决方案。该方法通过在病理数据集上微调预训练模型,减少了对大规模标注的依赖。然而,自然图像与病理图像之间固有的领域差异给该方法带来了显著局限。病理图像表现出独特的特征,如组织特异性染色变异、复杂的微结构模式以及具有诊断相关性的形态学特征,这些与自然图像存在显著差异。因此,直接应用来自自然图像的预训练模型往往导致特征迁移效果欠佳,限制了其诊断效力。因此,亟需开发专门针对病理图像独特属性设计的预训练框架。

自监督学习(SSL)提供了一种解决迁移学习中领域偏移问题的有效方法,它能够直接从无标注的病理图像中提取特征,从而消除了对自然图像预训练模型的依赖。研究表明,SSL可以利用内在数据结构作为监督信号来学习判别性特征。通过精心设计的前置任务(pretext tasks),SSL框架能够有效捕捉病理图像的结构和语义特征,在无需人工标注的情况下实现高效的特征学习。

现有的SSL方法在病理图像分析中面临重大挑战。一个关键局限在于缺乏领域特定适配,因为为自然图像设计的传统前置任务无法有效捕捉关键的病理特征,如组织特异性染色变异、复杂的微结构模式以及诊断相关的形态学特征。此外,当前的SSL方法,尤其是对比学习方法,存在类别冲突问题,即组织学相似但诊断意义不同的样本常常被错误地视为负对。这一问题在病理学中尤为突出,因为不同疾病状态之间常表现出形态学相似性。这些局限不仅限制了模型捕捉信息性、判别性特征的能力,还严重降低了其在下游诊断应用中的有效性。

为克服现有方法的局限,研究人员提出了一种专为病理图像分析定制的领域特定自监督对比学习(DSSCL)框架。DSSCL通过整合领域特定知识和对比对优化策略来专门适配病理图像分析,利用染色感知增强嵌入组织学先验知识,并通过过滤潜在正样本和挖掘困难负样本来有效缓解类别冲突并增强特征判别力。本工作的主要贡献总结如下:研究人员介绍了DSSCL,一个整合了基于染色分离的增强和对比感知样本选择机制的SSL框架,以有效克服病理图像表征学习中的挑战;提出了一种基于染色分离的数据增强(SSDA)策略,该策略将H&E染色图像分解为苏木精和伊红成分,生成生物学上合理的变异,同时保留诊断相关的组织结构,从而实现鲁棒的特征学习;设计了对比感知对细化(CAPR)模块,这是一种动态样本选择机制,用于过滤正对并挖掘困难负样本。CAPR减少了低质量负样本的影响并缓解了类别冲突,显著提升了表征学习效果;在三个基准病理数据集上的大量实验证明,DSSCL在分类、检测和分割任务中均展现出优越性能。

研究人员在《Big Data Mining and Analytics》上发表了这项研究。为开展该研究,主要运用了以下关键技术方法:首先,采用基于Vahadane算法的染色分离技术,将H&E染色图像分解为苏木精通道和伊红通道,以保留组织学先验。其次,设计了SSDA模块,通过加权融合机制将分离的染色成分与原图结合,生成增强的数据视图。核心框架采用了双编码器(在线编码器与动量编码器)的对比学习架构。最后,提出了CAPR模块,该模块包含两个子组件:潜在正样本过滤模块(Potential Positive Filtering Module, PPFM)通过潜在空间聚类去除语义相似的伪负样本;困难负样本挖掘模块(Hard Negative Mining Module, HNMM)通过自适应温度调整的伯努利采样选择困难负样本。研究使用了三个公开数据集进行验证:NCT-CRC-HE数据集(包含10万张来自86名患者的H&E染色图像,分为九类组织)、GlaS数据集(165张图像,包含腺体实例级标注)和CRAG数据集(213张H&E染色图像,包含2344个腺体实例的像素级标注)。

在研究结果方面,论文通过多个部分的实验和分析展示了所提方法的有效性。首先是下游分类任务的结果,在NCT-CRC-HE-100K数据集上的实验表明,DSSCL在极低标注数据比例(0.1%)下表现优异,达到了88.0%的准确率和82.6%的F1分数,优于包括CS-CO在内的多种现有方法。即使在全监督(100%标注数据)设置下,DSSCL也达到了94.4%的准确率。其次,在下游检测和分割任务的结果方面,基于GlaS和CRAG数据集的实验显示,DSSCL在边界框平均精度(APbb)和掩码平均精度(APmk)等指标上均取得最佳成绩,例如在CRAG数据集上,其APbb达到55.0,APmk达到54.4,表明其学习到的表征具有良好的可迁移性。消融研究验证了DSSCL各组件的贡献:移除SSDA模块会导致1.8%-2.2%的准确率下降;移除PPFM模块(核心组件)会导致最大性能下降(1.4%-4.3%);移除HNMM模块会导致0.6%-0.7%的准确率下降,证明了每个组件在不同数据可用性场景下的重要性。

讨论部分进一步分析了关键参数的影响。关于不同图像融合比例的影响,研究发现,将单染色图像与H&E图像以0.4:0.6的比例(即α=0.4)融合时性能最佳,该比例在增强染色特异性特征与保留整体形态细节之间取得了平衡。关于不同聚类数量的影响,当CAPR模块中的聚类数设为10时模型性能最优;聚类数过多(如40)会导致领域差距和性能不稳定。关于不同预训练批量大小的影响,较大的批量(如512)相比小批量(如128/256)能带来更稳定的梯度估计和更多正样本对,从而提升性能,但计算成本也随之增加,且当标注数据充足时,批量大小的影响减弱。特征可视化(t-SNE)结果直观展示了DSSCL学习到的特征具有更清晰的类别分离度,尤其在区分具有相似组织学特征的平滑肌(MUS)和基质(STR)这对难分样本上表现出优势。

论文结论部分指出,本研究提出了DSSCL框架。DSSCL整合了SSDA,利用分离的染色成分与原始H&E图像来增强特征学习;CAPR模块通过过滤和困难负样本挖掘提升了负样本的质量。在三个基准病理数据集上的广泛评估证明了DSSCL在分类、检测和分割任务中的出色性能,特别是在数据稀缺的场景下也能持续超越最先进方法。未来工作将探索将DSSCL扩展到更大的骨干网络架构,并在更广泛的病理图像数据集上进行预训练,以进一步提升其表征能力和泛化性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号