《PLOS Digital Health》:Diffusion-synthesized Chest X-rays improve fairness and diagnostic performance
编辑推荐:
深度学习模型已广泛应用于胸部X线片(CXR)的疾病分类与诊断;然而,数据稀缺和捷径学习等挑战常导致模型行为存在偏差。本研究针对传统深度学习模型在CXR数据训练中出现的公平性问题,提出通过图像合成来缓解人口统计学差异。研究人员使用低秩适应(LoRA)和CLIP分
深度学习模型已广泛应用于胸部X线片(CXR)的疾病分类与诊断;然而,数据稀缺和捷径学习等挑战常导致模型行为存在偏差。本研究针对传统深度学习模型在CXR数据训练中出现的公平性问题,提出通过图像合成来缓解人口统计学差异。研究人员使用低秩适应(LoRA)和CLIP分词器对预训练的稳定扩散模型进行微调,将低秩约束融入关键注意力层,同时保留原始架构。这使得能够以降低的参数复杂度生成高质量、逼真的CXR图像。实验结果表明,使用合成数据训练的模型在分类性能上有所提升,并在不同人口统计学群体间表现出显著降低的差异。此外,所提出的模型对疾病相关区域的关注度增加,对虚假捷径的依赖减少。这些发现突显了生成式人工智能在增强医学影像工作流程公平性方面的潜力,特别是与高效且可适应的微调策略相结合时。
本研究提出了一种新颖的框架,将基于LoRA微调的稳定扩散模型整合到胸部X线摄影(CXR)疾病分类中,旨在解决人口统计学偏差并提升模型鲁棒性。研究背景方面,过去十年,深度学习在医学影像领域取得了革命性进展,尤其是基于卷积神经网络(CNN)、视觉Transformer(ViT)及混合架构的模型,在检测肺炎、结核病和COVID-19等疾病时,已达到与专业放射科医生相当的性能。这些模型有潜力减轻临床医生工作负担、加速诊断并改善患者预后。然而,尽管这些模型表现出色,但其在公平性和泛化能力方面存在隐患。现有的训练数据集往往未能充分代表患者群体、成像设备和采集方案的多样性。因此,深度学习模型可能依赖于虚假相关性或“捷径”,这些捷径可能包括年龄、性别、种族等人口统计学线索或扫描仪特定的伪影,而非疾病特异性特征。这些捷径虽然能提升训练集上的表观性能,但常常导致对代表性不足或分布外群体的预测出现显著差异,从而引发伦理问题,因为对某些人群的误诊或性能下降可能加剧医疗不平等并损害患者安全。已有大量研究记录了医学人工智能中的公平性问题,例如CNN在不同种族、性别和社会经济群体间表现出性能差距,甚至细微的图像伪影也可能无意中影响模型预测。为应对此问题,传统方法主要依赖数据增强、重采样和合成数据生成等以数据为中心的方法,但这些方法存在局限性,例如标准增强技术难以生成真正多样化的图像,且无法解决标签中固有的偏差。因此,研究动机转向利用生成式人工智能方法,特别是扩散模型,进行公平性感知的数据生成。尽管扩散模型在医学影像中已有应用,但大多数先前研究要么聚焦于单一疾病场景,要么孤立地解决人口统计学公平性问题。鲜有方法能同时提升模型对疾病相关特征的关注度并缓解跨多个人口统计学维度(如种族、年龄和性别)的偏差。这构成了本研究的切入点,旨在利用基于扩散的合成CXR,在多样化患者群体中同时增强疾病特异性学习和模型预测的公平性。
研究人员主要采用了以下几个关键的技术方法(样本队列来源于公开的CheXpert、MIMIC-CXR、ChestX-ray14数据集):首先,将表格格式的临床标签和人口统计学信息通过基于模板的策略转换为自然语言文本描述,以形成文本-图像对,用于引导扩散模型。其次,采用基于潜在扩散的Stable Diffusion v1.5作为基础架构,并使用低秩适应(LoRA)技术对UNet的注意力层(查询、键、值投影矩阵)进行高效微调,将可训练参数从8.6亿大幅减少至约240万,从而在有限的医疗数据集上实现高效训练并避免过拟合。最后,在下游疾病分类任务中,采用微调过的CXR-CLIP(基于ResNet50或Swin Transformer)模型进行评估。
研究结果部分首先展示了CXR图像生成质量。研究人员通过消融实验确定了最优的LoRA模块注入目标和秩参数(r=4),在此配置下,生成的合成图像在Fréchet Inception距离(FID)、Kernel Inception距离(KID)、结构相似性指数(SSIM)和峰值信噪比(PSNR)等指标上达到最优,表明生成的图像在分布相似性、结构保真度和重建质量方面均表现良好。潜在嵌入的t-SNE可视化显示,合成数据的嵌入更重叠,表明人口统计学偏差减少。
在疾病分类性能评估中,研究人员使用多个先进的模型在三种训练场景(仅真实数据、真实+合成数据、仅合成数据)下进行评估。结果表明,无论使用何种模型架构,在真实数据中加入合成CXR均能一致性提升分类性能(以AUC和校准误差ECE衡量)。例如,CXR-CLIP (ResNet50)和CheXAgent在“真实+合成”设置下,平均AUC提升约2-4%,同时ECE显著降低。即使仅使用合成数据训练,多数模型(如CXR-CLIP (Swin-T))也能达到与仅使用真实数据训练相当甚至更优的性能(AUC在0.82-0.88范围内),这凸显了合成数据集的现实性和诊断效用。总体而言,这些结果证明合成数据不仅能补充真实数据集,还能独立支持高质量的模型训练。
接着,研究人员通过Grad-CAM、Grad-CAM++和显著图等可解释性方法对模型注意力进行了可视化分析。基线模型(仅真实数据训练)的注意力常被捷径分散,例如在识别纵隔增宽时,基线模型更关注肩部等与人口统计学信息相关的区域或起搏器。相比之下,使用合成数据训练的提议模型其注意力显著更集中于疾病特异性区域。定量评估(使用Dice相似系数DSC、交并比IoU、SSIM和PSNR)进一步证实,合成数据训练的模型在注意力地图的准确性和保真度上均优于真实数据训练的模型。
最后,公平性分析评估了模型在性别、种族和年龄等人亚组上的性能。结果显示,使用合成数据训练的模型在所有人口统计学群体间的性能差异(Disparity)均显著降低。例如,CXR-CLIP Res50模型的性别差异为0.011,种族差异为0.014,年龄差异为0.017,表明偏差极小。相比之下,使用真实数据集的模型则表现出更大的差异。研究人员还发现,随着合成数据比例的增加,模型性能持续提升,同时人口统计学差异进一步缩小。
论文的讨论部分总结道,主要发现是:仅使用LoRA微调的稳定扩散框架生成的合成CXR训练的模型,其性能优于使用真实数据训练的模型;而混合训练(真实+合成)则达到最佳准确率。这种“混合 > 仅合成 > 仅真实”的层级关系表明,扩散模型不仅能捕捉关键诊断特征,还能通过解剖学上多样且合理的变化引入有益的正则化。可解释性分析证实了合成数据训练使模型更关注临床相关区域而非虚假相关。此外,增加合成图像比例能显著降低人口统计学性能差异,提升了公平性。可能解释这些改进的机制包括:1) 分布平衡:合成语料库旨在均衡疾病标签并丰富人口统计学属性,从而抵消真实世界的采样偏差;2) 通过合理多样性进行的正则化:LoRA微调的稳定扩散模型能合成解剖结构一致的变化体,减少捷径学习。从部署角度看,更好的校准性、改善的关注质量以及参数高效微调带来的低成本模型更新,共同构成了实现公平且可审计的CXR人工智能的务实路径。然而,模型对详细提示的生成一致性和空间推理能力仍是开放性问题。
结论部分(翻译自原文)指出:本研究提出了一个将LoRA微调的稳定扩散模型整合到胸部X线摄影分类中的新颖框架,用以解决人口统计学偏差并提升模型鲁棒性。通过生成逼真且具有人口统计学多样性的合成CXR,该方法增强了数据集平衡,缓解了跨性别、种族和年龄亚组的代表性差距,并减少了下游预测任务中的偏差。该框架不仅提升了整体分类性能,还展示了对疾病相关区域更准确的定位,支持了可解释性和临床相关性。通过利用参数高效的LoRA微调策略,该模型在无需大量计算资源的情况下实现了这些改进,使其可行的规模化部署成为可能。这项工作凸显了将生成式人工智能与高效微调技术相结合,以创建领域适应性强、公平且具有临床意义的人工智能工具的潜力。