综述：基于计算机断层扫描的深度学习颅内出血检测与亚型分类的系统评价与荟萃分析

《Engineering Science and Technology, an International Journal》：Slice-level and scan-level performance of deep learning models for intracranial hemorrhage detection and subtype classification: a systematic review and meta-analysis

【字体：大中小】 时间：2026年04月07日 来源：Engineering Science and Technology, an International Journal 5.1

编辑推荐：

　　研究人员开展了一项系统评价与荟萃分析，旨在综合评估基于计算机断层扫描（computed tomography, CT）的深度学习（deep learning, DL）模型在颅内出血（intracranial hemorrhage, ICH）检测及亚型分类中的诊

研究人员开展了一项系统评价与荟萃分析，旨在综合评估基于计算机断层扫描（computed tomography, CT）的深度学习（deep learning, DL）模型在颅内出血（intracranial hemorrhage, ICH）检测及亚型分类中的诊断效能。研究遵循PRISMA指南，系统检索了PubMed、Scopus、Web of Science、IEEE Xplore及ScienceDirect数据库中截至建库的相关文献，经去重、标题摘要筛选及全文评估后，最终纳入90项符合条件的研究，其中46项研究（共54个独立评估单元）因提供了足够数据进行2×2列联表构建而被纳入定量合成。研究人员采用随机效应模型合并灵敏度（sensitivity, Se）与特异度（specificity, Sp），并通过Summary Receiver Operating Characteristic（SROC）曲线计算曲线下面积（area under the curve, AUC）。为探究异质性来源，研究预设了多项亚组分析，包括分析层级（切片级vs扫描级）、研究设计（回顾性vs前瞻性）、数据集类型（仅公共数据集vs仅私有数据集vs混合数据集）、验证设置（内部验证vs外部验证）、输入维度（2D vs 3D）及扫描级聚合策略。同时，研究人员进行了敏感性分析以评估数据集重叠、商业工具排除、2×2表推导方式及高风险偏倚研究排除对结果稳定性的影响。此外，研究采用QUADAS-2工具对纳入研究的偏倚风险与适用性进行评估。结果显示，整体ICH检测的汇总灵敏度为92%（95%置信区间：91%-93%），汇总特异度为95%（95%置信区间：92%-97%），SROC-AUC为0.973。亚组分析表明，扫描级评估的汇总灵敏度为90%、特异度为94%（SROC-AUC 0.963），而切片级评估则表现出更高的汇总灵敏度（95%）与特异度（97%）（SROC-AUC 0.984）。在亚型分类方面，各亚型汇总特异度均处于96%-99%的高水平，但汇总灵敏度存在差异，其中脑实质内出血（intraparenchymal hemorrhage, IPH）为89%，脑室出血（intraventricular hemorrhage, IVH）为89%，硬膜下出血（subdural hemorrhage, SDH）为88%，蛛网膜下腔出血（subarachnoid hemorrhage, SAH）为85%，而硬膜外出血（epidural hemorrhage, EDH）最低，仅为78%。研究人员指出，尽管DL模型在ICH检测中展现出卓越的判别能力，但现有证据多源于回顾性单中心研究，存在显著异质性与潜在的发表偏倚，且亚型分类的灵敏度尤其是针对EDH仍有待提升。未来研究应聚焦于前瞻性多中心外部验证、概率校准、明确临床应用场景及工作流程整合，以确保模型的真实世界可靠性与临床转化价值。

2. 方法学

本研究严格遵循系统评价与荟萃分析的首选报告条目（PRISMA）指南。文献检索覆盖PubMed、Scopus、Web of Science、IEEE Xplore及ScienceDirect数据库，检索时限设定为建库至2026年。研究人员依据预设的纳入与排除标准对文献进行筛选，纳入标准为：（1）研究对象为疑似颅内出血（ICH）患者；（2）干预措施为基于计算机断层扫描（CT）的深度学习（DL）模型；（3）对照或参考标准为临床诊断或影像学报告；（4）结局指标包含真阳性（TP）、假阳性（FP）、真阴性（TN）、假阴性（FN）或可推导上述数据的相关指标（如灵敏度、特异度、样本量等）。排除标准包括综述、会议摘要、非DL模型研究、无法提取或计算2×2表数据的文献。数据提取由两名研究人员独立完成，提取内容包括研究特征、模型架构、数据集信息、分析层级（切片级或扫描级）及诊断效能指标。对于未直接报告TP、FP、TN、FN的研究，研究人员依据灵敏度、特异度及样本量计算公式进行推导，推导数据在结果中以粗体标示。研究人员采用Quality Assessment of Diagnostic Accuracy Studies 2（QUADAS-2）工具对纳入研究的偏倚风险与临床适用性进行评估，评估领域涵盖病例选择、待评价试验、参考标准及流程与时序。

2.5. 偏倚风险评估

QUADAS-2评估针对切片级与扫描级研究分别进行。在病例选择域，切片级研究常因富集采样、选择性切片纳入及阴性样本代表性不足而呈现高风险，这与回顾性基准数据集的设计特性密切相关。索引测试域主要关注设计阶段是否利用测试集标签导致数据泄露，以及在测试集上进行阈值或决策规则的事后调整。参考标准域关注单一阅片者标注的不确定性、盲法缺失、模型输出介入标注过程或未经验证的报告依赖等问题。流程与时序域则评估了不一致排除、参考标准不一致及分析单元与标注工作流程不匹配等情况。适用性担忧主要考察研究人群、输入表征及评估环境是否与预期临床应用相匹配。

2.6. 统计分析

研究人员采用logit转换的随机效应模型合并灵敏度（Se）与特异度（Sp），并计算95%置信区间（CI）。汇总似然比依据公式LR+ = Se / (1 - Sp) 与 LR- = (1 - Se) / Sp 计算得出。鉴于阳性预测值（PPV）与阴性预测值（NPV）受患病率影响显著，本研究未将其作为主要推断指标。考虑到ICH数据集常存在类别不平衡，准确率可能因多数类别主导而出现虚高，因此准确率仅作为次要描述性指标，未进行主要定量合成的合并，分析重点置于Se、Sp、SROC-AUC及似然比。当同一研究中报告多个合格评估时（如不同分析层级、多个测试集或多个模型），研究人员将所有合格评估纳入主要荟萃分析。为评估研究内多重性与非独立性对结果的影响，研究人员进行了敏感性分析，限制每篇研究仅贡献一个评估结果，选择规则依次为：优先选择报告外部验证的评估；若仍存在多个，优先选择扫描级评估；若仍多个，选择测试样本量（TP+FP+TN+FN）最大的评估。此外，研究人员还进行了排除商业AI系统评估的稳健性检验。研究结果通过森林图与SROC曲线进行可视化。为进一步量化异质性，计算了I²统计量、τ²值及Cochran's Q检验，I²< 25%视为低异质性，25%-50%为中等异质性，> 50%为高异质性。发表偏倚通过漏斗图与Egger回归检验进行评估。

3. 结果

文献检索共获得1490条记录，经去重与筛选后，90项研究被纳入定性合成，46项研究（54个观察单元）被纳入荟萃分析。在定性合成中，45项研究报告仅切片级结果，39项仅扫描级结果，6项同时报告两者。扫描级研究中，33项使用2D模型输入，12项使用3D输入。研究设计方面，6项为前瞻性研究。数据来源方面，39项仅使用公共数据集，37项仅使用私有数据集，14项混合使用。最常用的公共数据集为RSNA ICH，其次为CQ500。QUADAS-2评估显示，切片级研究在病例选择域普遍存在高风险偏倚，扫描级研究则在适用性方面担忧较少，但在病例选择与索引测试透明度方面仍存在一定风险。

在主要荟萃分析中，基于54个观察单元的汇总Se为92%（95% CI: 91%-93%），汇总Sp为95%（95% CI: 92%-97%），SROC-AUC为0.973。亚组分析显示，切片级评估的汇总Se为95%（95% CI: 93%-97%），Sp为97%（95% CI: 91%-99%）；扫描级评估的汇总Se为90%（95% CI: 88%-92%），Sp为94%（95% CI: 92%-96%）。Q-between检验显示，Se在切片级与扫描级间存在统计学显著差异（p = 0.0002），而Sp差异不显著。按研究设计分层，回顾性研究的汇总Se为93%、Sp为95%；前瞻性研究的汇总Se为86%、Sp为95%。按数据集类型分层，仅使用公共数据集的研究汇总Se为96%、Sp为95%；仅使用私有数据集的研究汇总Se为90%、Sp为94%；混合使用的研究汇总Se为92%、Sp为95%。按验证设置分层，内部验证与外部验证的汇总效能相近。按输入维度分层，2D输入的汇总Se为92%、Sp为95%；3D输入的汇总Se为91%、Sp为92%。在扫描级评估中，由2D切片聚合而来的研究汇总Se为90%、Sp为95%；原生3D输入的研究汇总Se为91%、Sp为92%。

在亚型分类分析中，各亚型汇总Sp均处于较高水平（IVH: 99%, IPH: 97%, SDH: 97%, SAH: 96%, EDH: 96%），但汇总Se存在差异（IVH: 89%, IPH: 89%, SDH: 88%, SAH: 85%, EDH: 78%）。异质性检验显示，除EDH的Se外，其余各亚型指标均存在高度异质性（I²> 90%）。Q-between检验表明，各亚型间的Sp存在显著差异（p = 0.025），而Se差异无统计学意义（p = 0.0656）。发表偏倚评估发现，Se的漏斗图存在不对称（Egger检验p = 0.000045），而Sp的漏斗图对称（p = 0.95944）。排除小样本评估后，汇总估计值未降低反而略有升高，提示不对称可能源于异质性而非单纯的发表偏倚。敏感性分析表明，排除公共数据集、排除商业工具或排除推导的2×2表均未对汇总结果产生实质性改变，证实了研究结果的稳健性。

4. 讨论

本综述显示，基于CT的DL模型在ICH检测中总体表现出优异的诊断效能。然而，必须强调的是，这些汇总估计值应被视为有利评估条件下的性能上限，而非真实的现实世界操作点。扫描级评估的结果更具临床参考价值，其汇总Se为90%、Sp为94%。切片级评估虽然显示出更高的数值，但由于其分析单元与临床决策单元（患者/扫描）不一致，且易受切片富集、相关性及聚合规则不明确等因素影响，其临床直接适用性有限。亚组分析揭示，使用公共数据集的研究往往报告更高的灵敏度，这可能反映了公共基准数据集的多样性与标准化优势，但也提示可能存在过度拟合基准或选择性报告的风险。在亚型分类方面，尽管特异度普遍很高，但EDH的灵敏度仅为78%，这意味着单独依靠当前模型进行EDH的排除诊断可能存在风险，尤其是在需要紧急神经外科干预的临床情境下。研究还观察到极高的异质性（I²> 90%），这归因于纳入研究在模型架构、数据预处理、患者谱及评估协议上的巨大差异。此外，绝大多数证据来源于回顾性单中心研究，前瞻性、多中心、实时验证的数据严重匮乏。QUADAS-2评估也指出了普遍存在的偏倚风险，特别是病例选择中的谱偏倚和索引测试中的潜在数据泄露。因此，目前的证据支持将DL模型作为辅助诊断工具，而非独立的自主分诊系统。未来的研究应致力于开发保留容积信息的3D模型，开展严格的外部验证，明确报告预设的操作阈值与概率校准情况，并评估其在真实临床工作流程中对阅片者效率及患者预后的影响。联邦学习与可解释人工智能（XAI）技术的结合，有望在保护数据隐私的同时提升模型的泛化能力与临床信任度。

5. 结论

本系统评价与荟萃分析表明，基于CT的深度学习模型在颅内出血检测中展现出高水平的诊断准确性，汇总灵敏度达92%，特异度达95%。然而，这些估计值反映的是理想化研究环境下的性能上限。亚型分类的准确性存在异质性，特别是硬膜外出血的检测灵敏度相对较低（78%），因此亚型预测结果应仅作为临床决策支持，而非独立的自主分诊依据。现有证据主要由回顾性单中心研究构成，存在显著的异质性和偏倚风险，真实世界性能可能低于现有报告。未来亟需开展前瞻性、多中心、实时验证研究，重点关注模型校准、操作阈值确定以及与临床工作流程的深度整合，以确保其安全有效的临床转化。

热点排行