《Clinics》:A comparative benchmark of DeepSeek-R1 on the USMLE: surpassing human and AI performance averages
编辑推荐:
摘要:
目的 大型语言模型(Large Language Models,LLMs)的快速发展,激发了其在医学教育中的应用兴趣,尤其是在美国医师执照考试(United States Medical Licensing Examination,USMLE)等高
摘要:
目的 大型语言模型(Large Language Models,LLMs)的快速发展,激发了其在医学教育中的应用兴趣,尤其是在美国医师执照考试(United States Medical Licensing Examination,USMLE)等高风险评估场景中的应用。本研究旨在评估由中国开发的最先进大型语言模型DeepSeek-R1相较于OpenAI模型的表现,以判断其在医学教育与医学评估中的可行性。
方法 研究人员评估了5种模型在321道基于文本的USMLE风格试题上的表现,包括DeepSeek-R1、DeepSeek-V3以及3种OpenAI模型(GPT-4 Omni、OpenAI o3-mini、OpenAI o1 pro)。研究计算了各模型的正确率,并采用经Bonferroni校正的卡方检验(Chi-Square tests with Bonferroni correction)进行统计学比较。
结果 DeepSeek-R1取得了最高的总体正确率,为92.5%(95%置信区间[confidence interval, CI] 89.1%?94.9%),显著优于OpenAI模型(均为78.8%,p < 0.0001)。DeepSeek-R1在USMLE全部步骤中的表现亦超过既往报道的人类应试者平均水平。DeepSeek-R1与OpenAI o1 pro之间的跨模型共识正确率达到94.9%,提示其在处理相对直接的问题时具有较高可靠性。此外,在答案不一致的题目中,DeepSeek-R1表现出更强能力,其正确率为82.8%,而OpenAI模型为14.1%?28.1%(p < 0.0001)。
结论 DeepSeek-R1在人工智能驱动医疗(AI-driven healthcare)领域显示出较强竞争力,展现出更优的正确率与推理能力。然而,其当前在多模态数据处理方面的局限性,提示仍需进一步技术创新。本研究结果为教育工作者与政策制定者在将非西方大型语言模型整合进入医学评估体系时提供了有价值的参考。
《Clinics》发表的这项研究围绕大型语言模型(Large Language Models,LLMs)在医学教育评估中的能力展开,核心问题是:在美国医师执照考试(United States Medical Licensing Examination,USMLE)这类高风险、标准化医学考试中,国产大模型DeepSeek-R1能否达到甚至超越既有西方模型及人类平均水平。研究背景在于,人工智能(Artificial Intelligence,AI)特别是LLMs近年来已广泛进入医学问答、文书生成、知识检索与教育支持等场景,而USMLE由于强调基础医学知识、临床知识应用和独立临床决策,被视为衡量模型医学推理能力的重要标准工具。既往研究已显示ChatGPT等模型能够通过USMLE,甚至在部分复杂临床推理问题上优于低年资医学生,但模型偏倚、可解释性不足、地区可及性受限以及合规性问题依然明显。尤其在中国语境下,OpenAI服务可获得性受限,促使本土模型快速发展。DeepSeek作为中国开发的开源大模型,采用专家混合(Mixture of Experts,MoE)架构,在降低计算开销的同时增强了推理性能,但其在标准化医学考试中的表现此前缺乏系统评估。因此,研究人员开展本研究,意在通过与OpenAI多种模型直接对比,明确DeepSeek-R1在医学评估中的实际能力,并为其在医学教育中的应用提供依据。
研究人员实施的是一项计算机模拟基准研究(in silico benchmarking study),不涉及人体、动物或临床数据。研究使用官方公开的USMLE样题库,覆盖Step 1、Step 2 CK和Step 3三个阶段;为保证不同模型可比性,剔除了需要图像判读的55题,最终纳入321道纯文本单项最佳答案题。受评估模型共5种,包括DeepSeek-R1、DeepSeek-V3、GPT-4 Omni、OpenAI o3-mini和OpenAI o1 pro。所有模型均通过官方网页界面、在零样本(zero-shot)提示条件下回答统一提示语,随后以标准答案为参照计算正确率,并采用经Bonferroni校正的卡方检验进行统计比较,95%置信区间采用Wilson评分法计算。研究还按USMLE不同步骤及10个医学专科进行分层分析,并进一步考察模型间答案一致与不一致情形下的表现差异。样本来源为USMLE官方网站公开样题及补充材料。
在总体结果上,研究首先证明DeepSeek系列在USMLE风格试题中表现更优。论文“**The DeepSeek series demonstrated superior performance on USMLE-styled questions**”部分显示,经过剔除图像题后,321道文本题构成最终比较数据集。DeepSeek-R1总体正确率达到92.5%,位居所有模型之首;DeepSeek-V3为82.2%,位列第二;3个OpenAI模型则均为78.8%。统计分析显示,DeepSeek-R1显著优于所有OpenAI模型,而DeepSeek-V3与GPT系列之间差异不显著。这一结果表明,DeepSeek-R1不仅在总体正确率上领先,而且优势幅度足够达到统计学显著。
随后,在不同USMLE阶段的比较中,研究人员发现DeepSeek-R1在Step 1、Step 2 CK和Step 3三个阶段均持续领先。论文相关分析指出,USMLE Step 1重点考察基础医学原理,Step 2 CK强调监督下患者照护中的临床知识应用,Step 3则更聚焦独立执业环境中的患者管理与高级临床决策。DeepSeek-R1在三阶段的正确率分别为93.7%、92.5%和91.7%,均高于其他模型。值得注意的是,在Step 1中OpenAI o1 pro位列第二,而在Step 2 CK与Step 3中DeepSeek-V3均居第二。所有模型的正确率都超过约60%的通过阈值,但DeepSeek-R1表现最为稳定。研究还进一步将模型成绩与2021年美国和加拿大LCME认证医学院考生平均成绩作比较,结果显示DeepSeek-R1在全部步骤上均超过历史人类平均表现,其中在Step 1、Step 2 CK和Step 3分别高出16.7、10.5和16.0个百分点。这说明其在基础医学整合和患者管理相关推理上具有明显优势。
在按医学专科分层的结果中,论文“**The performance of LLMs varies across different medical specialties**”部分进一步揭示,不同模型在具体学科领域的能力存在差异。研究将题目划分为心脏病学、呼吸病学、内分泌学、肾脏病学、血液学、胃肠病学、神经病学、免疫学、感染病学和精神病学10个专科。总体趋势与总成绩一致,DeepSeek-V3和DeepSeek-R1在全部10个专科中均表现较优。但研究也指出,在心脏病学、内分泌学、胃肠病学和免疫学等领域,GPT系列与DeepSeek模型的差距缩小,表现较为接近;而在感染病学和精神病学中,OpenAI模型正确率仅约60%~70%,明显落后于DeepSeek系列。这说明模型优势并非在所有学科均等,专科分布可能与训练数据构成及模型优化重点有关。
在模型一致性与分歧分析中,论文“**Analysis of consensus and discordant performance**”部分提供了更细的推理能力证据。研究人员选取各自阵营中表现最好的DeepSeek-R1与OpenAI o1 pro进行比较,并假设二者若给出一致答案,可能构成更可靠的判断。结果显示,在321道题中,两者在257题上答案一致,一致率为80.1%;在这257题中,正确率达到94.9%。不过,这一共识正确率与DeepSeek-R1总体正确率相比差异并不显著,提示高共识正确率更多源于DeepSeek-R1本身的高基线表现,而非简单的模型集成增益。同时,这一共识子集明显优于OpenAI o1 pro的总体表现,说明二者出现分歧时,错误更多来自OpenAI o1 pro。
进一步针对64道分歧题的分析是本研究的重要亮点。在这些答案不一致的题目中,DeepSeek-R1正确53题,正确率82.8%,显著优于全部其他模型;相比之下,DeepSeek-V3正确率为54.7%,GPT-4 Omni为28.1%,OpenAI o3-mini为20.3%,OpenAI o1 pro仅为14.1%。这一结果说明,当题目更具争议性、歧义性或更依赖复杂临床推理时,DeepSeek-R1的稳健性更强。研究据此认为,DeepSeek-R1在处理复杂医学推理任务方面展现出更高能力,尤其是在模型之间无法轻易形成一致答案的情境下,这种优势更加突出。
在讨论部分,研究人员首先将本研究置于AI推动医学教育和评估转型的大背景中,指出USMLE由于高度贴近真实医疗实践,因此模型在该考试中的表现可作为其临床应用潜力的重要代理指标。研究人员认为,DeepSeek-R1凭借92.5%的总体正确率以及在全部USMLE步骤中超过人类平均考生的结果,显示出较强的医学知识整合能力和临床推理能力,尤其是在基础科学与患者管理方面优势更为明显。相对而言,GPT系列尽管架构存在差异,但表现收敛于78.8%的较低平台,提示在特定医学细节上可能存在训练或优化层面的上限。研究人员同时强调,尽管DeepSeek系列总体领先,但在部分专科领域GPT系列仍具有竞争力,因此对模型进行领域特异性评估仍然必要。
讨论中还对“共识”与“分歧”结果进行了谨慎解释。研究人员指出,多模型在简单问题上达成一致可能构成可靠性标志,但不能将其机械推广到复杂病例,因为共识本身可能仅仅反映题目较容易,而非真正提高决策质量。相反,分歧题更能暴露模型临床推理深度,而DeepSeek-R1在这些题目中的显著优势,提示其在争议性和模糊性情境下更具鲁棒性。不过论文也明确强调,这种能力仍需通过真实世界、多学科诊断团队情境进一步验证。
关于局限性,论文总结得较为完整。首先,研究排除了图像题,因此只能评价文本推理能力,尚未覆盖真实临床决策所需的多模态(multimodal)整合。其次,为确保公平比较,研究采用统一零样本提示,没有系统展开思维链(chain-of-thought,CoT)等高级提示策略,因而不同提示方式对性能的影响仍待进一步研究。第三,该设计虽适于标准化比较,但不能细分错误究竟源于事实性错误、推理错误还是其他失效模式。第四,对于DeepSeek-R1而言,其训练数据中是否存在地域来源不平衡尚不清楚,这可能影响对特定地区高发疾病情境的处理。此外,研究人员还指出,USMLE主要考察常见疾病知识,因此结果不必然外推至罕见病诊断等更复杂的现实临床情境。除方法学问题外,论文还强调了高风险医学评估中引入LLMs所伴随的算法偏倚、可解释性不足和用户过度依赖等伦理挑战。
尽管存在上述限制,研究人员认为DeepSeek-R1的快速演进使其在医疗场景中的前景值得关注。论文指出,自2025年1月以来,DeepSeek-R1经过持续升级,2025年5月版本在推理能力、幻觉控制和前端输出稳定性方面均有所改善,且已有中国医疗机构将其用于自动化文书生成等工作流程。基于这些进展,研究人员认为,DeepSeek-R1有潜力在资源有限环境中提供接近专科水平的支持,增强学术医疗中心的诊断一致性,并减轻医疗文书负担。
研究结论部分可译为:本研究对DeepSeek在医学评估与医学实践中的表现进行了较为全面的评估,并相对于ChatGPT等既有模型提供了新的能力证据。结果显示,DeepSeek-R1在受评估模型中取得最高正确率,且超过平均人类应试者的表现基准。然而,持续存在的局限——特别是缺乏多模态数据处理能力以及真实世界部署中的技术障碍——提示仍需在混合式人工智能系统与基础设施优化方面持续创新。未来研究应优先推进多模态整合、领域特异性微调以及可扩展架构的发展,以有效弥合人工智能能力与临床需求之间的差距。解决这些挑战,将有助于下一代大型语言模型进一步促进医学教育、提高诊断准确性,并最终改善患者照护。