《Nature Biomedical Engineering》:3D foundation model for generalizable disease detection in head computed tomography
编辑推荐:
为解决头颈部CT影像中高质量标注数据稀缺、现有AI模型泛化能力不足的临床瓶颈,研究人员开展了名为FM-HCT的三维基础模型研究。该模型通过自监督学习在36万余例无标注头颈部CT扫描上预训练,在10项下游疾病检测任务中显著超越从头训练的模型及其他CT基础模型,尤其在少量标注数据场景下展现出优异的泛化性能,为AI辅助头部疾病诊断提供了可扩展、高效的解决方案。
头颈部计算机断层扫描(CT)成像是评估脑、颅骨及脑血管系统病理的首选影像学手段,尤其在神经急症中因其快速、安全、成本低且普及度高而被广泛使用。然而,尽管深度学习模型在疾病检测方面展现出潜力,高质量标注数据的稀缺——特别是对于少见病种——严重制约了高性能模型的开发。此外,现有公共数据集规模有限且多集中于出血检测,许多方法依赖二维卷积网络,难以捕捉三维体积结构并泛化至缺乏明确层面标签的疾病。近年来,基于海量数据自监督训练的“基础模型”在自然与医学影像领域取得突破,但现有的CT基础模型主要聚焦于腹部CT或报告生成,缺乏针对头颈部CT的鲁棒三维表征。为此,研究团队引入了FM-HCT,一个专为头颈部CT设计、旨在实现通用疾病检测的三维基础模型。
为开展此项研究,作者主要采用了以下关键技术方法:1. 使用来自单一大型临床机构的361,663例无标注三维头颈部CT扫描进行自监督预训练,数据涵盖西门子和东芝两种扫描设备,层厚0.5-5 mm。2. 采用Vision Transformer(ViT)作为基础架构,将96×96×96的三维体积分割为512个12×12×12的块进行处理。3. 对比了两种自监督学习框架:基于自蒸馏的DINO和基于掩码图像建模的MAE,最终选定DINO作为预训练方法。4. 利用电子健康记录(EHR)获取下游10项疾病检测任务的标签,并在四个数据集(NYU Langone、NYU Long Island、RSNA、CQ500)上评估模型性能。5. 通过微调、少样本学习、卷对卷检索及可视化注意力图等多种方式全面评估模型的有效性与泛化能力。
研究结果
用于三维头颈部CT扫描疾病检测的基础模型
研究人员通过在不同疾病检测任务上微调基础模型来评估其能力。所选任务包括检测各类出血(如脑内出血IPH、脑室内出血IVH、硬膜下出血SDH等)、脑肿瘤、脑积水、水肿及阿尔茨海默病和相关痴呆。结果表明,在NYU Langone数据上,基于基础模型微调的模型在所有10项任务上均优于从头训练的模型,宏AUC(曲线下面积)达到0.852,相对提升了16.07%。
与其它基础模型的比较
研究将FM-HCT与Merlin、Google CT Foundation模型及CT-FM等其他三维CT基础模型进行了比较。尽管Merlin是在腹部CT上预训练的,但其宏AUC相对改进为8.07%,仍低于FM-HCT的13.05%相对改进。与在14.8万例多样CT扫描(含头颈部CT)上预训练的CT-FM相比,FM-HCT在宏AUC和平均精度上分别实现了9.56%和44.60%的相对改进,证明了本方法的有效性和可扩展性。
分布外泛化评估
为评估模型对分布外数据的泛化能力,研究使用了三个外部数据集。在域内微调(即在外部数据集上训练和验证)设置下,FM-HCT在NYU Long Island和RSNA数据集上分别取得了0.904和0.923的宏AUC,显著优于从头训练的模型。在完全外部验证(即使用在NYU Langone上微调的模型直接测试外部数据)中,模型也展现出强大的泛化性,在某些任务上性能与域内微调相当甚至更优。
卷对卷出血亚型检索性能
为进一步严格评估预训练基础模型的表征质量,研究在RSNA和CQ500数据集上进行了卷对卷出血亚型检索研究。结果显示,FM-HCT在平均检索精度上显著优于CT-FM和Merlin,与Google CT模型相比,在CQ500和RSNA上也分别取得了9.99%和2.21%的相对增益。
少样本分类的性能与标签效率
少样本学习实验表明,FM-HCT在仅有少量标注数据时仍能取得优异性能。例如,在RSNA数据集中,仅用8个正负样本(总计16个)训练,检测脑室内出血的AUC即可超过0.90,与使用全量数据训练的结果相当。这证明了基础模型在自监督预训练中学到了多样且富有表达力的特征。
与替代建模方案的比较
研究还比较了FM-HCT与三种替代方案:1) 使用最先进二维基础模型DINOv3的多实例学习;2) DINOv3的均值池化;3) 将三维CT视为视频并用视频基础模型VJEPA2处理。结果表明,FM-HCT在大多数任务上性能最佳,在AUC和AP上均显著优于这些替代方案,且模型吞吐量和内存成本具有明显优势。
扩大预训练数据规模
研究探索了缩放定律对模型性能的影响。通过使用10%、30%和100%的可用数据进行预训练,发现更大的预训练数据集持续带来更好的下游任务性能,凸显了利用更多数据以及多机构协作聚合大规模数据以提升模型质量的潜力。
可视化解读
通过可视化ViT的注意力图,研究发现预训练后的基础模型能捕捉通用的脑部特征,而针对特定任务微调后,模型的注意力更加集中于与疾病相关的模式。例如,在水肿任务中,热图遍布大部分脑区,反映了弥漫性肿胀;在ADRD任务中,模型则强调脑室扩大和脑萎缩区域。这种可视化解释了端到端微调优于线性探测的原因,因为前者允许模型更有效地学习任务特异性特征。
研究结论与讨论
本研究成功开发了FM-HCT,一个基于大规模无标注头颈部CT扫描、通过自监督学习预训练的三维基础模型。该模型在10项下游疾病检测任务上显著超越了从头训练的模型及其他CT基础模型,展现出卓越的泛化能力、标签效率和少样本学习性能。其意义在于:1) 临床价值:为颅内出血等神经急症的快速、精准检测提供了强大工具,有助于早期血压管理以改善患者预后;同时,使得利用更普及的CT而非MRI进行阿尔茨海默病等疾病的早期筛查成为可能,有助于扩大在急诊科及服务不足社区的疾病筛查覆盖面。2) 方法论贡献:证实了在头颈部CT领域进行大规模三维自监督预训练的有效性,为医学影像基础模型的发展提供了新范式。3) 可扩展性:研究表明扩大预训练数据规模能持续提升性能,为未来通过多中心合作构建更大规模数据集、进一步释放模型潜力指明了方向。尽管研究受限于电子健康记录标签噪声和单中心数据,但FM-HCT为推进AI辅助头颈部CT解读、实现更准确的诊断和早期疾病检测奠定了坚实基础,并展现出在疾病预后分析等更广阔临床应用中的潜力。该研究发表于《自然-生物医学工程》(Nature Biomedical Engineering)。