一种用于多供应商肺结核筛查的可靠性感知分析框架

《Healthcare Analytics》:A reliability-aware analytics framework for multi-vendor Tuberculosis screening from chest radiographs

【字体: 时间:2026年06月18日 来源:Healthcare Analytics CS4.4

编辑推荐:

  人工智能(AI)在支持基于胸部X光片的结核病(TB)筛查方面具有显著潜力;然而,由于异构成像系统、不可靠的概率估计以及有限的面向部署的筛查工作流操作评估,实际部署仍具挑战性。为了解决这些挑战,该研究开发并评估了TRUST-CXR,一种可靠性感知工作流,集成了影

  
人工智能(AI)在支持基于胸部X光片的结核病(TB)筛查方面具有显著潜力;然而,由于异构成像系统、不可靠的概率估计以及有限的面向部署的筛查工作流操作评估,实际部署仍具挑战性。为了解决这些挑战,该研究开发并评估了TRUST-CXR,一种可靠性感知工作流,集成了影像归档和通信系统(PACS)与自动分诊,用于多供应商胸部X光片结核病筛查。从医院PACS中以原生数字影像和通信标准(DICOM)格式检索的3522张胸部X光片的回顾性数据集,在富士(FUJIFILM)、西门子(SIEMENS)和飞利浦(PHILIPS)成像系统上进行了分析。所提出的工作流包括图像质量评估、供应商感知协调、基于AI的结核病风险预测、概率校准、子组感知评估和操作分诊分析。使用固定分诊阈值0.5评估了五种工作流配置,包括原始DICOM推理和四种协调或预处理变体。在保留测试集(N=200)上,TRUST-CXR取得了F1分数0.869、灵敏度0.880、特异度0.853、受试者工作特征曲线下面积(AUROC)0.942和精确率-召回率曲线下面积(AUPRC)0.947。事后校准提高了概率可靠性,而与最佳基线工作流相比,操作分析将每1000次检查的假阳性分诊负担从80.0降至73.3,并将漏诊结核病(TB)病例从63.3降至60.0,且未显著增加转诊量。这些发现表明,可靠性感知AI和操作工作流分析可以改善异构放射学环境中面向部署的结核病筛查。
论文解读文章

研究背景:结核病(TB)仍是全球重大公共卫生挑战,延迟诊断导致传播和死亡。胸部X光片(CXR)广泛用于TB筛查,但人工智能(AI)辅助筛查在真实部署中面临多重挑战:异构成像系统引入域偏移,导致模型泛化能力下降;AI概率估计常不可靠,影响基于阈值分诊决策;且现有研究多集中于模型鉴别性能(如受试者工作特征曲线下面积AUROC),缺乏对操作层面工作流影响的评估。因此,需要一种将图像协调、概率校准、子组监控和操作分析整合的可靠性感知框架,以支撑在多供应商放射学环境中的部署。

研究人员开展的研究:该研究开发并评估了TRUST-CXR框架,旨在从医院影像归档和通信系统(PACS)衍生的胸部X光片(CXR)中进行多供应商TB筛查。研究使用来自印度尼西亚一家转诊肺病医院的回顾性数据集,包含3522张原生数字影像和通信标准(DICOM)格式的CXR,由富士(FUJIFILM)、西门子(SIEMENS)和飞利浦(PHILIPS)系统获取,以GeneXpert MTB/RIF微生物学结果为参考标准。数据按患者层分为训练集(3122)、验证集(200)和测试集(200),测试集TB阳性与阴性各半。框架整合了DICOM摄取与元数据验证、基于HyFusion的协调(扩展域异质性指数DHI参数初始化、自适应α调整、最佳候选回退)、质量控制(QC)门控(峰值信噪比PSNR≥25.0、结构相似性指数SSIM≥0.80、对比度噪声比CNR≥0.80)、基于DenseNet121的TB风险预测、温度缩放概率校准、子组感知评估及操作分诊分析。与原始DICOM推理及三种预处理基线(CLAHE标准化、直方图匹配、多频平衡MFB)对比,所有工作流使用固定分诊阈值0.5。

研究结果:
- 比较协调工作流性能:在测试集上,TRUST-CXR(V4)的AUROC为0.942±0.007,AUPRC为0.947±0.006,与最强基线多频平衡(V3)相当(AUROC 0.944±0.002,AUPRC 0.951±0.006)。但在固定阈值下,V4取得了更高的F1分数(0.869 vs 0.859)、灵敏度(0.880 vs 0.873)和特异度(0.853 vs 0.840)。配对自举分析显示,决策级指标差异的95%置信区间包含零,表明V4在决策级表现出有利但非统计显著性优势。
- 概率校准与可靠性评估:温度缩放后,所有工作流的预期校准误差(ECE)和Brier分数均降低。TRUST-CXR的ECE从0.094±0.018降至0.052±0.019(降幅44.7%),Brier分数从0.106±0.016降至0.097±0.014。可靠性图显示校准后预测概率与观察频率更一致。
- 子组与供应商感知评估:在FUJIFILM和SIEMENS主导供应商层中,TRUST-CXR保持了稳定的灵敏度(分别为0.886±0.009和0.865±0.048)和F1分数(0.886±0.028和0.839±0.010)。年龄和性别子组中,灵敏度整体稳定,但45-64岁子组略低(0.833±0.047)。PHILIPS子组仅3例测试,结果应视为探索性。
- 操作分诊与转诊负担分析:TRUST-CXR的每1000次检查假阳性(FP/1000)为73.3±36.9,低于最强基线V3的80.0±8.7;每1000次检查假阴性(FN/1000)为60.0±5.0,优于V3的63.3±2.9。转诊量(513.3/1000)与V3(516.7/1000)接近,表明在控制假阳性负担的同时未显著增加漏诊。

总结讨论与结论:讨论部分强调,预处理策略显著影响下游分诊行为,协调与校准的整合改善了概率一致性和操作平衡。子组监控显示需继续关注年龄和供应商差异。研究局限包括单中心回顾性设计、供应商分布极不平衡(FUJIFILM占75.2%、PHILIPS仅0.6%)、未进行前瞻性临床整合及运行时间测试。未来需多中心前瞻性验证、静默部署及校准漂移监控。

结论原文翻译:这项研究提出了TRUST-CXR,一种面向工作流的框架,用于从PACS衍生的胸部X光片中进行多供应商结核病(TB)筛查,集成了DICOM感知协调、QC引导的预处理安全措施、概率校准和操作分诊分析。在评估的工作流中,该框架在异构筛查条件下展现了有竞争力的鉴别能力,同时提高了可靠性和决策一致性。基于HyFusion的协调相比传统增强方法带来了更稳定的预处理行为,而事后温度缩放通过降低校准误差并加强预测概率与观察结果的一致性,提高了概率可靠性。子组和供应商感知分析显示,在固定操作策略下,筛查行为在人口统计学层和主要FUJIFILM与SIEMENS采集层中总体稳定,而PHILIPS因样本量极小需解释为探索性。相对于基线预处理工作流,TRUST-CXR在转诊灵敏度与假阳性控制之间取得了更好的平衡,同时保持了稳定的工作量导向分诊行为。总之,这些发现强调了医疗AI系统评估不应仅局限于鉴别性能,并表明整合协调、校准、子组感知评估和操作分析可能有助于构建更可靠且面向部署的TB筛查工作流,同时仍需要具有平衡供应商代表的更广泛外部验证。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号