评估普通大型语言模型与检索增强型生成大型语言模型在口腔颌面外科医师资格考试中的表现

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Journal of Oral and Maxillofacial Surgery》：Evaluating the performance of general vs retrieval-augmented generation large language models on oral and maxillofacial surgery board examinations

【字体：大中小】 时间：2026年06月19日 来源：International Journal of Oral and Maxillofacial Surgery 2.7

编辑推荐：

　　M.V. Joachim|H. Rushinek|A. Laviv以色列茨里芬沙米尔（阿萨夫·哈罗费）医疗中心牙科部门口腔颌面外科科室摘要大型语言模型在医学考试中的表现十分出色，但其在口腔颌面外科领域的应用仍缺乏足够研究。本研究旨在探讨通用型模型在专业医学评估中的表现是否优于领域

M.V. Joachim|H. Rushinek|A. Laviv

以色列茨里芬沙米尔（阿萨夫·哈罗费）医疗中心牙科部门口腔颌面外科科室

摘要

大型语言模型在医学考试中的表现十分出色，但其在口腔颌面外科领域的应用仍缺乏足够研究。本研究旨在探讨通用型模型在专业医学评估中的表现是否优于领域专用型检索增强生成模型。研究共测试了五种人工智能模型在2017年至2024年的官方A阶段考试中的表现，这些考试共有788道题目：三种通用型模型（Gemini 2.5、ChatGPT-5、Claude Sonnet 4），以及两种GPT-4o版本（未经调优的基准版本和可完全访问官方考试材料的检索增强版本）。其中Gemini 2.5的准确率为83.8%，ChatGPT-5为73.2%，Claude Sonnet 4为72.3%，未经调优的GPT-4o为51.4%，而经过检索增强的GPT-4o则为50.9%。通过成对McNemar检验发现，Gemini 2.5与ChatGPT-5（P<0.001）以及Claude Sonnet 4（P<0.001）的表现存在显著差异，而ChatGPT-5与Claude Sonnet 4之间则没有差异（P=0.609）。所有通用型模型的表现都显著优于两种GPT-4o版本（P均<0.001）。而对两种GPT-4o版本直接比较后并未发现差异（P=0.788），这说明即使能够直接获取考试材料，检索增强功能也无法为基准架构带来优势。错误分析显示，人类的弱点在于事实回忆，而人工智能的不足则在于对不同地区医学教学体系的情境理解能力。Gemini 2.5的通过率远远超过70%的及格线（P<0.001）；ChatGPT-5也略高于该阈值（P=0.048）；Claude Sonnet 4虽然达到了及格分数，但并未显著超过阈值（P=0.153）。研究表明，决定模型性能的关键因素是架构的复杂程度，而非领域特定知识的补充。这些结论是基于文本型选择题的考试表现得出的，不能直接应用于实际的临床决策中。

内容片段

研究设计与数据集

本研究采用回顾性虚拟对比分析方法，分析了2017年至2024年间举办的官方A阶段OMS考试题目。数据集包含这8年间的788道有效选择题。各年度的题目数量分别为：2017年（n=100）、2018年（n=100）、2019年（n=88）、2020年（n=100）、2021年（n=100）、2022年（n=100）、2023年（n=100）和2024年（n=100）。2019年题目数量较少的原因是有12道题目因技术问题被取消。

时间稳定性与样本特征

对8年间的788道题目进行分析后发现，这些题目的难度具有较高的时间一致性。五种模型在首次作答和再次作答之间的Cohen’s κ系数介于0.751到0.832之间，这一结果表明可以使用首次作答的结果作为主要分析依据。

数据污染检测

通过记忆检测并未发现数据污染现象。在27次测试中（每组9道题目，共3种模型），三种通用型模型在仅看到题目题干时都无法还原出正确的选项。所有模型

讨论

本研究结果表明，决定人工智能在复杂医学评估中表现的关键因素是架构的复杂程度，而非领域特定知识的补充。尽管能够完全访问考试相关材料，但带有检索增强功能的GPT-4o版本的表现与其未经改进的基准版本几乎相同（分别为50.9%和51.4%，P=0.788），而这两者的表现都远低于通用型模型（72.3%至83.8%）。这一发现对那些侧重于领域特定模型调优的传统研究思路提出了挑战。

伦理审批

由于本研究是对已匿名处理的考试数据进行的回顾性分析，且不涉及任何个人身份信息，因此无需经过机构审查委员会的审批。

资金支持

无。

关于写作过程中使用生成式人工智能及人工智能辅助技术的声明

在撰写本文时，作者使用了Claude（具体为Claude Sonnet 4.5和4.6）来提升手稿的可读性和语言表达水平，包括检查语法和语句清晰度。在使用该工具或服务之后，作者对内容进行了必要的修改，并对最终发表的文章内容负全部责任。

利益冲突

无。

致谢

作者们要感谢N. Casap教授在本文研究过程中的帮助与支持。

患者同意书

不适用。

联系信箱：

粤ICP备09063491号

摘要