综述：人工智能与医疗保健专业人员诊断准确性的荟萃分析

《Sci》：Meta-Analysis on Comparison of Diagnostic Accuracy Between Artificial Intelligence and Healthcare Professionals Prem Kumar, Nouf A. Alnaimi, Sumi Soman, Leda Suansing, Daniel Ryan Arriola and Lamiaa Al Jamea

【字体：大中小】 时间：2026年04月03日 来源：Sci CS5.2

编辑推荐：

　　背景：人工智能（AI）能够显著优化医疗保健资源的分配。在医疗环境中，采用AI驱动的诊断测试支持医疗保健专业人员（HCPs）进行诊断、治疗及患者预后预测。方法：纳入2015年1月1日至2025年8月30日期间发表的相关研究。研究设计包括随机试验、回顾性研究、前瞻

背景：人工智能（AI）能够显著优化医疗保健资源的分配。在医疗环境中，采用AI驱动的诊断测试支持医疗保健专业人员（HCPs）进行诊断、治疗及患者预后预测。方法：纳入2015年1月1日至2025年8月30日期间发表的相关研究。研究设计包括随机试验、回顾性研究、前瞻性研究、观察性研究、比较性研究和横断面研究。采用PROBAST + AI工具评估纳入研究的偏倚风险（ROB）及适用性问题。结果：AI与一般HCPs相比，总体平均诊断准确率分别为81%和71%。在AI与非专家HCPs的比较中，准确率分别为95%和82%。AI在诊断准确率上显著高于一般和非专家HCPs，比值比（OR）分别为1.51（95% CI: 1.17–1.96, p = 0.002）和3.34（95% CI: 1.13–9.86, p = 0.03）。AI与专家HCPs的诊断准确率分别为91%和86%；AI达到与专家HCPs相似的诊断准确率，OR为0.72（95% CI: 0.25–2.07, p = 0.54）。此外，在使用AI支持的HCPs中，高水平的负担或职业倦怠显著低于未使用AI的HCPs。合并估计值为OR = 1.77（95% CI: 1.40–2.24, p < 0.00001），表明将AI工具整合到临床实践中可显著减少与工作相关的压力。结论：基于研究结果，AI对提高诊断准确率具有积极影响，并有助于减轻HCPs的工作负担。

**1. 引言**
医疗环境中人工智能（AI）的应用持续增长，大多数机构利用AI提升护理质量。超过80%的医疗场所使用AI改善患者结局并提高工作流效率^[1]。在美国，近46%的医院处于AI实施的初期阶段，但报告指出许多机构正积极致力于企业级部署^[2]。最近，AI医疗市场在2024年增长至323.4亿美元，预计到2032年将达到4310.5亿美元。这一增长反映了在医疗和研究领域对AI项目的快速投资，以 bolster 护理质量^[3]。在临床环境中，许多医疗保健专业人员（HCPs）在实现疾病的准确和早期诊断方面仍面临挑战。这些专业人员通常难以确定精确的疾病状况和症状。AI可能通过高级算法处理能力帮助HCPs节省时间并提高诊断准确率。通过分析大规模电子健康记录，AI支持HCPs得出正确的诊断。此外，在紧急情况下，算法可协助进行决策，优先处理严重病例并减少患者等待时间^[4]。具有特定关注点的诊断准确率和风险分层患者护理在AI算法支持下表现出更好的结果^[5]。生成式AI正在迅速演变，并越来越多地应用于各种医疗环境中。包括医生、护士和实验室技术人员在内的专业人员利用AI检查临床病例并深入了解医疗状况。证据表明，AI技术正被用于在高等医学教育机构中培训HCPs。当前研究的一个重要部分是解决AI应用的障碍，如伦理和监管问题，以及将AI整合到现有医疗信息系统中的问题。进一步的研究应侧重于在医学和教育机构内实施和使用AI技术^[6]。未来多学科合作的发展可能会强调提高算法准确率、加强对抗偏倚的韧性，并确保AI用于患者利益的安全应用^[7]。虽然目前的文献大多集中在临床诊断准确率上，但AI的作用还扩展到优化支持患者护理的操作基础设施。例如，结合核Fisher判别分析和改进的图卷积神经网络的先进模型已被用于空调单元的故障诊断，确保为医疗交付提供稳定和安全的环境^[8]。目前，很少有已发表的研究评估AI与一般、专家和HCPs的诊断准确率^[9,10,11]。为了填补这一知识空白，本研究评估了AI与一般、专家和HCPs之间的诊断准确率。此外，本综述探讨了AI在优化医生任务和减轻专业负担方面的潜力。通过这种方法，综述有助于AI在医疗领域的全球实施。

**2. 材料与方法**
本节描述方法论方法，概述纳入和排除标准、文献搜索、数据选择、数据提取、纳入研究的质量/偏倚风险评估及数据分析。本综述遵循系统综述和荟萃分析报告首选项目（PRISMA）指南^[12]。

**2.1. 纳入和排除标准**
**纳入标准：**
2015年1月1日至2025年8月30日期间在同行评审期刊上发表的研究文章。专注于使用AI提高医疗保健质量的研究。提供医疗保健结果的数据，如诊断准确率、简化HCP任务及减轻其工作负担。
**排除标准：**
缺乏原始数据的摘要、社论、综述、讨论文章和会议论文。未专门关注AI在医疗中应用的研究。

**2.1.1. 研究类型**
纳入采用多种设计的研究，如随机对照试验、前瞻性和回顾性研究、比较性研究、观察性研究和横断面研究。每种研究均评估了人工智能（AI）与医疗保健专业人员（HCPs）相比的诊断准确率。这种包容性方法有助于捕捉不同临床环境、AI系统和临床医生 expertise 水平下的广泛证据范围，从而全面评估AI的诊断性能（补充文件S2）。评估未进行比较组的AI诊断准确率的研究被排除（补充文件S3）。

**2.1.2. 参与者类型**
本综述的参与者包括AI系统，如ChatGPT、GPT-3、GPT-3.5、Maya-MD、Ada应用程序、Cascade-RCNN模型以及各种机器学习和深度学习算法。进行评估比较的HCPs包括放射科医生、皮肤科医生、心脏病学家、急诊医生、全科医生、神经科医生、视网膜专家、风湿科医生和内窥镜医生。

**2.1.3. 干预类型和对照组**
计划比较AI与三个不同的HCP组：专家、一般和非专家。专家HCPs由在特定器官系统或诊断模态方面拥有高级培训的专家和亚专科专家组成。一般HCPs定义为提供初级保健或广谱医疗服务的医生或临床医生。非专家HCPs包括目前正在接受专业化培训的个体（表1）。

**2.1.4. 结局指标**
本综述的主要结局是比较AI与HCPs的诊断准确率，并评估AI在优化临床任务和减轻医生工作负担方面的潜力。结局指标包括AI与HCPs组（一般、专家和非专家）之间正确诊断的比较，以及对工作流效率、时间节省以及对临床决策和任务委派影响的评估。

**2.2. 文献搜索**
作者基于本节准备了标准模板。

**2.2.1. 电子搜索**
作者于2025年9月30日搜索电子数据库。无语言限制。我们搜索了来自以下电子数据库的研究（补充文件S1）：PubMed（2015-2025）、Google Scholar（2015-2025）、Embase（2015-2025）、Scopus（2015-2025）、Web of Science（2015-2025）、Science.gov beta（2015-2025）、Clinical Trials.gov（2025年9月30日）、Saudi Clinical Registry（2025年10月3日）、Cumulative Index to Nursing and Allied Health Literature (CINAHL)。

**2.2.2. 搜索其他资源**
筛选通过搜索过程识别的相关系统综述和荟萃分析。纳入初始搜索未捕获但包含在这些综述中的研究，以确保对可用证据的全面评估。

**2.3. 数据选择**
两名作者（PK和SS）对所有通过电子搜索识别的研究进行盲法筛选。在标题筛选期间，明确无关的研究被排除（补充文件S3）。随后根据预定义的纳入和排除标准评估剩余记录的全文（补充文件S2）。分歧通过讨论或必要时咨询额外审查作者解决。

**2.4. 数据提取**
两名作者进行盲法提取，使用标准数据收集模板从选定文章中提取以下数据（表2和表3）。第一作者将研究特征和偏倚风险评估输入Review Manager [44]，其他作者核实并传输研究数据进行分析。

**2.5. 纳入研究的质量/偏倚风险评估**

**2.5.1. 偏倚风险**
两名作者独立使用PROBAST + AI对所有结局的研究质量进行评估。PROBAST + AI工具有四个评估领域：1. 参与者，2. 预测因子，3. 结局，4. 分析。每个领域都有信号问题以评估偏倚风险。该工具还评估前三个领域的适用性。**偏倚风险判断：**
* **参与者：** 使用了适当的数据源吗？使用了适当的研究设计吗？参与者的纳入和排除是否导致代表性数据集？
* **预测因子：** 预测因子是否对所有参与者定义并同样评估？预测因子的预处理是否对所有参与者相似？预测因子评估是否在不知道结局数据的情况下进行？纳入模型的预测因子是否在使用模型时可用？
* **分析：** 结局定义并适当评估了吗？结局对所有参与者定义并同样评估了吗？结局评估是否在未使用或不知道预测因子数据的情况下进行？预测因子评估与结局评估之间的时间间隔是否适当？
* **结局：** 模型评估是否避免了仅基于明显性能？是否有证据表明样本量合理？分析中是否适当处理了缺失或删失数据的参与者？如果使用了解决类别不平衡的方法，评估是否在没有不平衡校正的数据集中进行？如果进行数据拆分以创建训练和测试数据集，是否有证据表明避免了数据泄露？如果使用了重采样方法评估模型性能，所有模型开发步骤是否在重采样过程中复制？模型的预测性能是否得到适当评估，例如校准、判别和净收益？
**解释：** 每个领域包含帮助作者确定研究设计和方法是否适当且无偏倚的信号问题。对这些问题的回答分为“是”、“可能是”、“可能不是”、“否”或“无信息”，从而导致对偏倚风险的整体判断为低、高或不明确。

**2.5.2. 适用性问题**
两名作者独立使用PROBAST + AI对所有选定的研究评估适用性问题。PROBAST + AI工具有三个领域：参与者：纳入参与者的数据与审查问题不匹配，或评估者打算使用预测模型的问题。预测因子：模型中预测因子的定义、预处理、评估或评估时间与审查问题或评估者的预期用途不匹配的问题。结局：结局、其定义、评估或评估时间与审查问题或评估者的预期用途不匹配的问题。**解释：** 如果所有三个领域都被评为低适用性问题，则适用性低。如果至少一个领域被评为高适用性问题，则适用性高。如果至少一个领域被评为不确定的适用性问题，且没有领域被评为高适用性问题，则适用性不确定。我们专门使用修订为适用于AI研究的PROBAST + AI工具。

**2.6. 数据分析**

**2.6.1. 合成方法**
所有定量分析均使用Review Manager [45] (RevMan-Version-1.0.95)进行，并使用I²统计量评估研究间异质性。主要合成方法是荟萃分析，通过计算纳入研究中报告的效果大小的加权平均值产生合并效果估计。每项研究的效果估计（例如，比值比或均值差）按其方差的倒数加权，确保具有更高精度的研究（如样本量较大或事件数较多的研究）获得更大的影响。考虑两种建模方法：固定效应模型（FEM），假设所有研究估计单个潜在真实效果；随机效应模型（REM），假设真实效果在不同研究中变化，并估计该分布的平均效果。荟萃分析结果使用森林图呈现，合并估计值显示为代表组合效果及其相应95%置信区间的菱形。

**2.6.2. 异质性调查和亚组分析**
计划进行亚组分析，以比较不同医疗专业（一般、专家和非专家HCPs）之间的诊断准确率，以及在AI性能进行比较的不同医学专业和研究中。这些分析旨在确定诊断性能是否随临床专业知识水平或诊断任务的具体临床领域而变化。亚组分析还提供了一种探索潜在异质性来源的策略。研究人群、临床环境、AI模型类型或诊断任务的变异性可能导致效果估计的差异。通过在更同质的亚组中检查结果，可以更好地理解研究间异质性的根本因素，从而提高合并结果的可解释性。

**2.6.3. 敏感性分析**
为了评估合并诊断准确率估计的稳定性，通过隔离HCPs表现优于AI的研究进行敏感性分析。这种方法确定这些特定研究对整体异质性的贡献程度，以及其纳入是否显著改变主要荟萃分析的结论。

**2.6.4. 证据确定性评估**
两名作者独立根据五个GRADE领域（偏倚风险、不一致性、不精确性、间接性和发表偏倚）评估证据的确定性为高、中、低或非常低。评估遵循Cochrane干预措施系统综述手册的指南，利用EPOC工作表和GRADEpro GDT软件支持该过程。分歧通过讨论解决。在特征汇总表中的脚注中提供了所有降级或升级证据确定性决定的明确理由，并在必要时包括额外的解释性评论以促进读者理解。使用通俗语言陈述以可访问和透明的方式呈现确定性评估。

**3. 结果**
本节介绍研究发现，包括纳入研究特征的总结及其质量和偏倚风险评估。此外，本节报告比较AI和HCPs诊断准确率的合并结果。结果通过描述性总结、相关图表和表格呈现。

**3.1. 研究特征**
通过全面的电子数据库搜索共识别出22,566条记录。去重后，剩余2,595项独特研究供进一步评估。其中2,501项在标题和摘要筛选阶段因无关、研究人群、不相容结局或研究类型而被排除。因此，94篇文章被列入全文资格评估。随后，55篇全文文章经过详细的资格评估。在此阶段，23项研究因不符合预定义的纳入标准而被排除；具体原因包括研究设计不当、方法细节不足、缺乏关键结局指标或人群不匹配。最终，32项研究满足所有资格标准，并纳入定量合成进行数据提取和统计分析（图1）。为确保方法学严谨性，研究选择由两名作者独立完成，分歧通过讨论或咨询第三名作者解决。此外，筛选了纳入研究的参考文献列表以识别进一步的合格研究。使用PRISMA流程图记录研究选择的每个阶段，确保透明度和可重复性。

**3.1.1. 搜索结果**
搜索涵盖2015年1月1日至2025年9月30日的期间。通过全面的数据库搜索，共识别出22,566条记录。此更新的筛选过程，包括带出的研究数量，如图1所示。

**3.1.2. 纳入研究**
在32项纳入研究中，13项（40%）为随机对照试验，7项（21%）为观察性研究，6项（18%）为回顾性研究，3项（9%）为比较性研究，2项（6%）为横断面研究，1项（3%）为前瞻性研究。我们仅提取了当前综述的诊断准确率数据（表3）。为了提高诊断评估可比性的透明度，纳入的研究根据AI和HCPs是否评估相同数据集（配对比较）或不同数据集进行分类。本荟萃分析中的大多数研究利用配对诊断设计，其中AI和HCPs评估相同的成像数据集或临床病例，从而实现诊断准确率的直接比较。然而，少数研究利用替代设计，如基于案例的研究或涉及AI辅助与非辅助队列的工作量比较。每项研究的设计分类和比较条件如表2和表3所示，提供了关于AI和HCPs诊断性能可比性的方法学透明度。纳入研究的年度分布如下：2019年1项（3%），2020年3项（9%），2021年6项（18%），2022年6项（18%），2023年5项（15%），2024年6项（18%），2025年5项（15%）（图2）。诊断案例涵盖多个临床领域，包括放射学（13项研究，40%）、心脏病学（4项研究，12%）、急诊医学（4项研究，12%）、病理学（2项研究，6%）、神经学（2项研究，6%）、皮肤科（2项研究，6%）、眼科（2项研究，6%）和临床医生倦怠评估（4项研究，12%）。关于纳入研究的更多详细信息见补充文件S2。

**3.1.3. 排除研究**
共有22项研究从研究中排除。从综述中排除的原因是缺乏比较组且不符合纳入标准。

**3.2. 纳入研究的质量/偏倚风险**
图3总结了纳入研究的总体方法学质量。纳入的文章使用PROBAST + AI工具进行评估。领域包括参与者、预测因子、结局和分析。

**3.2.1. 偏倚风险判断**
参与者：大多数研究（32项中的26项）偏倚风险低。预测因子：大多数研究（32项中的29项）偏倚风险低。结局：大多数研究（32项中的29项）偏倚风险低。分析：大多数研究（32项中的16项）偏倚风险不明确。关于适用性，大多数研究（16/32）适用性问题低，13/32适用性问题高。总体而言，13/32偏倚风险低，2/32偏倚风险高，16/32偏倚风险不明确。参与者的偏倚风险相对较低，表明参与者的选择和特征可能是适当和无偏倚的。预测因子显示出混合的风险概况，表明某些预测因子具有高偏倚风险。结局类别也反映了大量被归类为高风险的实例，突出了对被测量结局可靠性的潜在担忧。分析本身似乎具有低偏倚风险，表明用于分析的方法健全可靠。整体偏倚风险令人担忧，有大量实例被归类为高风险，这可能影响发现的有效性。

**3.2.2. 适用性问题**
总体而言，32项纳入研究中的17项（53%）被确定为偏倚风险低，13项（41%）被分类为高风险，2项（6%）被归类为不明确风险。数据表明适用性水平高，尽管有相当百分比的研究在某些领域属于“高”风险类别。与参与者领域类似，预测因子领域表现出很强的适用性，表明分析中使用的变量与临床背景相关且合适。结局类别显示出分布各异，一些评估落入“不明确”范围，表明某些结局测量的适用性存在潜在不确定性。虽然整体适用性似乎很高，但不明确的适用性实例表明可能需要进一步评估。PROBAST + AI框架在大多数类别中表现出很强的适用性，特别是对于参与者和预测因子。然而，关于结局和整体偏倚风险的担忧值得进一步调查。

**3.3. 干预效果**
分析包括各种研究，每项研究都有助于全面了解AI相对于HCPs的性能。森林图直观总结了每项研究的比值比（OR）及其相应的95%置信区间（CI），以及总体合并效果估计。

**3.3.1. 人工智能与一般医疗保健专业人员**
图4显示了合并比值比的总结，OR = 1.51（95% CI: 1.17–1.96; p = 0.002）。由于事件代表正确诊断分类的数量，这一结果表明，在纳入的研究中，AI比一般HCPs具有显著更高的正确诊断几率。95%预测区间为0.58至3.95，表明效果可能在未来的研究和临床环境中变化，可能有利于AI或HCPs。观察到显著的异质性（Tau2 = 0.22; Chi2 = 78.62, df = 20, p < 0.00001; I2 = 75%），表明研究之间存在相当大的变异性。有利于AI的研究（OR > 1）包括Boginskis 2023 [13]、Faqar-Uz-Zaman 2022 [37]、Graf 2022 [26]、Guermazi 2022 [40]、Han 2022 [29]和Wang 2021 [22]，显示出高比值比，表明在这些背景下对AI有效性的强烈支持。有利于一般HCPs的研究（OR < 1）包括David M. Levine 2024 [14]、Keenan 2020 [44]和Lisa Herzog 2023 [32]。

**3.3.2. 人工智能与专家医疗保健专业人员**
图5展示了AI与专家HCPs比较的发现。合并估计显示OR = 0.72（95% CI: 0.25–2.07; p = 0.54）。由于事件代表正确诊断，OR低于1表明专家HCPs表现出略高的诊断准确率，尽管宽泛的置信区间和不显著的p值表明AI与专家临床医生之间没有统计学显著差异。观察到显著异质性（Tau2 = 1.75; Chi2 = 115.53, df = 6, p < 0.00001; I2 = 95%），表明研究间存在变异性。

**3.3.3. 人工智能与非专家医疗保健专业人员**
图6表明，五项研究（Choi 2020 [33]、Gan 2019 [17]、Homayounieh 2021 [21]、Rauschecker 2020 [15]、Twinprai 2022 [20]）的结果包括在此分析中。合并结果显示OR = 3.34（95% CI: 1.13–9.86; p = 0.03）。由于事件代表正确诊断，这一发现表明，与非专家HCPs相比，AI表现出显著更高的正确诊断几率。然而，存在非常高的异质性（Tau2 = 1.44; Chi2 = 124.17, df = 4, p < 0.00001; I2 = 97%），反映了研究间的显著变异性。

**3.3.4. 使用AI减少工作负担**
图7显示了AI实施对医生工作量的影响。在此分析中，事件定义为使用AI支持系统时报告较低水平的负担或倦怠。合并结果显示OR = 1.77（95% CI: 1.40–2.24, p < 0.00001），表明与非AI支持系统相比，AI辅助工作流与显著更高的减轻工作负担或倦怠的几率相关。未观察到异质性（I2 = 0%）。

**3.3.5. 不同专科的诊断准确率和总体准确率**
在不同临床领域进行了亚组分析（图8）。在此分析中，事件再次代表正确诊断。AI在放射学（OR = 1.93, p = 0.002）和皮肤科（OR = 1.57, p = 0.005）方面表现出显著高于一般HCPs的诊断准确率。在心脏病学、急诊医学、神经病学和病理学方面，合并分数无统计学显著性。在眼科方面，合并估计倾向于HCPs（OR = 0.75, p = 0.01），表明该专科临床医生的诊断准确率更高。总体而言，跨专科的组合分析得出OR = 1.51（95% CI: 1.17–1.96; p = 0.002），表明AI系统平均表现出比一般HCPs更高的正确诊断分类几率。总体结果表明，虽然AI可以在某些领域增强有效性，但应根据科室需求和背景仔细考虑其应用。AI与一般HCPs的总体平均诊断准确率为81%比71%，AI与非专家HCPs为95%比82%，AI与专家HCPs为91%比86%（表4）。

**3.3.6. 敏感性分析解释**
纳入的研究之间观察到显著异质性，I2值为74%（图9）。这表明研究在使用的数据集数量、研究设计、研究人群和报告的结局方面存在相当大的变化，但结果有利于AI相较于一般和非专家HCPs的诊断准确率。Z检验显示出统计学显著的整体效果（p = 0.00001）。因此，应用随机效应模型以解释观察到的变异性并生成更可靠的合并估计。

**4. 讨论**
本节在现有文献背景下解释研究的关键发现。它强调了综述的优点和缺点、综述的局限性以及结果对临床实践的潜在意义和AI支持HCPs的角色。

**4.1. 证据总结**
定量结果基于32项比较AI与HCPs诊断准确率以及AI在优化医生任务和减轻其负担方面的使用的研究。总体而言，AI模型的合并诊断准确率（81%）高于一般HCPs（71%）。大多数单个研究有利于AI：21项研究中有19项的比值比（OR）大于1，表明AI对医疗质量的积极影响。一些研究，如Wang 2021 [22]和van Doorn 2021 [28]，显示高比值比（分别为10.14和4.47），表明强烈有利于AI。然而，一些研究表明专家医生胜过AI模型，例如在检测胸部X光片上的肺结节、检测心律失常（A）和结构疾病模式，或在某些诊断准确率指标中OR < 1。AI系统在骨折检测方面非常有效，为放射科医生和主治医生提供支持（Boginskis 2023 [13]）。AI的实施可以提高诊断准确率，减少错误，并成为临床决策的宝贵工具。四项评估AI在优化医生任务和减轻其负担方面使用的研究（Garcia 2024 [30]、Misurac 2025 [36]、Olson 2025 [38]、Baek 2025 [41]）和减轻其负担（OR = 1.77, 95% CI 1.40–2.24, p < 0.00001）发现AI技术与行政负担和倦怠水平减少之间存在正相关关系。此外，除了合并效果估计外，我们还计算了95%预测区间（PI）以评估未来研究中可能观察到的效果潜在范围。尽管合并分析显示AI表现出比HCPs更高的诊断性能（OR = 1.57, 95% CI: 1.18–2.07），但95%预测区间范围为0.42至5.85。这一宽区间反映了显著的研究间异质性（I2 = 87%），表明新研究中的真实效果可能会有很大差异。在某些环境中，AI可能比HCPs表现好得多，而在其他环境中，性能可能相当甚至有利于HCPs。因此，应谨慎解释这些发现。需要在不同临床环境中进行设计良好的未来研究，以更好地定义AI提供最大诊断 benefits 的条件。

**4.2. 与其他综述的一致性和分歧**

**4.2.1. 综述的优点**
搜索了多个主要数据库，包括Cochrane、PubMed、Embase、CINAHL、Web of Science和Google Scholar；结果显示纳入研究的质量。没有最初的研究设计限制以最大限度地捕获相关证据。重点明确的标准集中在AI与HCPs的诊断准确率上。确保排除没有比较组的研究。使用结构化的偏倚风险评估工具（PROBAST + AI）提高了方法学质量。纳入了跨多个专科的32项研究。多样化的临床环境增强了研究发现的通用性。综述使用随机效应荟萃分析（Mantel–Haenszel），鉴于异质性是适当的，并提供了合并ORs、预测区间和亚组分析。区分AI与专家以及AI与非专家是一个重要的区别。将工作负载/倦怠结果整合到综述中提供了额外的价值。研究结果一致有利于AI。

**4.2.2. 综述的缺点**
缺点包括来自中国、韩国和日本的大量工作来源。研究间显著的异质性（I2 = 75–78%）降低了对合并效果的信心。异质性来源（例如，AI类型、诊断模态、训练数据集大小）未得到充分探索。混合的研究设计影响有效性，因为结合RCT、回顾性研究和横断面研究可能导致不一致的发现。虽然不建议对诊断准确率综述进行发表偏倚评估，但AI性能研究容易出现阳性报告偏倚。工作负载证据代表性不足，因为只有四项研究评估了工作负载。多个数据集或读者被视为单个比较可能会人为压缩方差。广泛包括AI模型而缺乏分层讨论：GPT模型、CNN、ML算法、放射学特定系统和诊断应用程序以不同的方式运行。混合它们模糊了关于哪种类型的AI最有效的见解。可能的结果过度解释：虽然整体OR > 1有利于AI，但预测区间很宽（0.58–3.95）。这表明现实世界的性能高度可变，这需要更谨慎的解释。

**4.3. 综述的局限性**
本综述有几个显著的局限性。纳入的研究在设计、样本量、AI模型和结局指标方面存在显著的异质性（I2 = 78%），这可能影响合并结果的可比性和解释。将搜索限制为英语出版物可能会引入语言和发表偏倚。许多AI模型缺乏外部验证或在有限的数据集上评估，可能限制了发现的通用性。此外，临床医生专业知识、医疗环境和患者人群的变化可能影响诊断性能比较。最后，综述主要关注诊断准确率和减轻工作负担，而没有评估其他关键维度，如成本效益、临床工作流整合和伦理影响。

**4.4. 临床和研究启示**

**4.4.1. 实践启示**
AI可以支持临床医生更准确地检测状况，特别是在放射学、皮肤科、心脏病学和急诊护理中。AI辅助工具减少花在重复性任务上的时间，使临床医生能够专注于复杂的患者护理。AI干预可以降低行政工作负担，促进更高的工作满意度和员工保留率。AI可以作为培训师和非专科人员的决策支持系统，改善临床实践。成功整合需要员工培训、持续的模型验证以及清晰的指南，以确保安全、可靠和道德的使用。

**4.4.2. 研究启示**
未来研究应遵守AI诊断研究的标准报告指南（例如，CONSORT-AI、SPIRIT-AI、STARD-AI、PROBAST + AI）。标准化报告将提高可重复性，减少偏倚，并实现更精确的荟萃分析。大多数纳入的研究是回顾性的，基于二次数据集。需要在临床相关环境中评估AI性能的前瞻性、真实世界、多中心研究。当前大多数数据集反映了有限的人口统计学、种族和地理多样性。研究应确保平等代表性，以避免算法偏倚并提高通用性。未来试验应比较AI、临床医生以及AI-临床医生组合工作流，以确定哪种方法提供最高的准确率和安全性。与其将AI和人类作为竞争对手进行比较，未来研究应评估AI如何支持临床决策并减轻工作负担而不损害患者安全。研究应报告详细的混淆矩阵、阈值和性能指标（敏感性、特异性、AUC、PPV和NPV），以能够实现结果的准确合并。许多AI工具在同一或类似的数据集上得到验证。研究应优先考虑在完全独立的队列上进行外部验证，并评估随时间推移的性能漂移。很少有研究评估安全结果、用户错误、过度依赖或对AI建议的误读。未来研究应包括安全终点和工作流分析。研究应包括经济评估、可行性评估和实施框架，以了解在医疗系统中的实际采用。关于AI减轻临床医生工作负担的证据仍然有限。未来试验应明确量化时间节省、工作流效率、倦怠减少和任务重新分配。

**4.4.3. 证据确定性和通用性**
主要结局的证据确定性，即AI诊断性能优于HCPs（OR 1.51），被评为中等。虽然纳入的大量研究和显著的Z分数（6.01, p < 0.00001）提供了强度，但确定性因高统计异质性（I2 = 87）和几项研究分析领域中的“不明确”偏倚风险而降级。这表明虽然趋势是积极的，但未来需要高质量的随机对照试验以增加这些估计的精确性和稳定性。当前证据体系中确定的一个重要局限性是研究的地域集中性。大多数纳入的研究在高收入地区进行，这些地区拥有先进的数字医疗基础设施，如北美、欧洲和部分东亚地区。这引发了对通用性到代表性不足地区（包括中东、非洲和拉丁美洲）的担忧。主要在西方数据集上训练的AI模型可能在应用于具有不同基因特征、疾病患病率或临床环境的多样化人群时遭受“算法偏倚”或准确率降低。未来研究必须优先考虑在这些地区进行多中心验证，以确保AI驱动的诊断工具在全球范围内公平有效。

**5. 结论**
基于研究结果，AI对诊断准确率具有积极影响，并有助于减轻HCPs的工作负担。尽管如此，一些研究表明，专家临床医生在特定任务中仍可能胜过AI，突出了AI的互补作用而非替代作用。证据表明，将AI与HCPs集成可以提高诊断性能并改善整体护理质量。作者得出结论，虽然AI具有巨大的潜力，但其最佳效用在于协作的人-AI工作流，其中临床专业知识和AI被共同利用。需要在真实世界临床环境中进行未来研究，以加强AI应用的可信度、通用性和安全性。展望未来，AI在医疗中的整合可能会向更先进的混合决策模型、增强的AI输出可解释性、 across diverse populations的严格验证以及无缝融入常规临床工作流方向发展。这些进步有望提供更安全、更高效和公平的诊断护理，减少临床医生倦怠，并支持医疗系统中基于证据的决策。

热点排行