住院医师撰写与GPT-5.2生成的眼科出院信的对比评估:一项回顾性盲法研究

《Informatics》:Comparative Evaluation of Resident-Written and GPT-5.2-Generated Ophthalmology Discharge Letters: A Retrospective Blinded Study

【字体: 时间:2026年06月19日 来源:Informatics 2.8

编辑推荐:

  背景/目的:出院信(discharge letters)对于护理的连续性至关重要,但通常耗时准备且质量参差不齐。大型语言模型(Large Language Models, LLMs)可能有助于标准化并支持这一过程,然而在眼科领域的证据仍然有限。本研究比较了来自

  
背景/目的:出院信(discharge letters)对于护理的连续性至关重要,但通常耗时准备且质量参差不齐。大型语言模型(Large Language Models, LLMs)可能有助于标准化并支持这一过程,然而在眼科领域的证据仍然有限。本研究比较了来自相同去标识化临床数据的住院医师撰写与GPT-5.2生成的眼科出院信的质量。方法:这项回顾性盲法研究在克罗地亚的一家三级医院进行。对于146次连续住院患者出院,原始住院医师撰写的信件与使用标准化提示(prompt)创建的GPT-5.2生成信件配对;142个完整配对可用于主要分析。三名委员会认证的眼科医生使用结构化评估对匿名信件进行评价,评估内容包括准确性(accuracy)、完整性(completeness)、清晰度/结构(clarity/structure)、语气/专业措辞(tone/professional phrasing)、简洁性(conciseness)、总体质量(global quality)、错误(errors)、遗漏(omissions)和关键内容要素。结果:在主要配对分析中,GPT-5.2生成的信件在准确性、完整性、清晰度/结构、错误、遗漏和总体质量方面与住院医师撰写的信件表现相似。GPT-5.2生成的信件在语气/专业措辞方面获得更高评分,而住院医师撰写的信件被认为更简洁,尽管在这些风格领域的评估者间一致性较差(简洁性处于或低于偶然水平),因此这些发现应视为探索性的。住院医师撰写的信件更常记录手术操作,而GPT-5.2生成的信件更一致地包含发现。经评估者调整的敏感性分析在多个领域对GPT-5.2不太有利。结论:在主要配对分析中,GPT-5.2生成的眼科出院信在多个评估领域显示出与住院医师撰写的信件相似的性能,但特定内容要素的差异以及不太有利的敏感性分析表明,临床监督仍然是必要的,以确保准确性、手术流程完整性和临床可用性。
本研究探讨了大型语言模型(LLMs)在临床文档生成中的应用,特别是针对眼科出院信这一高时间消耗且质量不一致的领域。出院信对于患者出院后护理的连续性至关重要,传统上由住院医师手动撰写,常因工作繁忙导致效率低下和风格差异。尽管LLMs在其他专科的文档生成中展现出潜力,但眼科领域的具体证据缺乏,尤其是在相同临床数据源下与住院医师撰写的直接配对比较。为此,研究人员开展了一项回顾性盲法研究,在克罗地亚斯普利特大学医院眼科进行,共纳入146例连续住院患者。研究将每位患者的原始住院医师撰写出院信与基于同一去标识化临床数据、使用标准化提示(prompt)由GPT-5.2生成的出院信进行配对比较。三名委员会认证的眼科医生对匿名化信件进行结构化评估,涵盖准确性、完整性、清晰度/结构、语气/专业措辞、简洁性、总体质量、错误、遗漏及关键内容要素(如诊断、手术、发现、治疗、随访等)。主要分析基于一名评估者(给出最严格评分)评定的142个完整配对,辅以评估者调整的敏感性分析和评估者间一致性检验。研究论文发表在《Informatics》。

该研究使用的关键技术方法主要包括:① **配对设计**:将住院医师撰写与GPT-5.2生成的信件基于同一住院病例配对,减少混杂因素;② **标准化提示工程**:由眼科医生和临床信息学团队联合制定的固定结构提示(要求以克罗地亚语输出,包含入院诊断、住院经过、发现、手术、出院治疗、随访指示和出院状态,并禁止编造信息);③ **盲法结构化评估**:三名委员会认证的眼科医生使用4点李克特量表(Likert scale)和二元内容要素清单进行独立评分;④ **统计分析**:采用Wilcoxon符号秩检验进行配对比较,McNemar检验用于二元变量,并计算Cohen's dz效应量;⑤ **敏感性分析**:纳入全部三位评估者评分的评估者调整模型,并计算二次加权Cohen's kappa评估评估者间一致性。样本队列来源于克罗地亚斯普利特大学医院眼科的146例连续住院患者。

研究结果如下:

**主要配对分析结果**:在准确性、完整性、清晰度/结构、总体质量、严重错误、轻微错误和严重遗漏方面,GPT-5.2生成与住院医师撰写的出院信无显著差异。差异主要体现在风格领域:GPT-5.2信件在语气/专业措辞方面评分更高(平均差异0.18,95%CI 0.10~0.26,Cohen's dz=0.37),而住院医师信件更简洁(平均差异-0.08,95%CI -0.13~-0.02,Cohen's dz=-0.23)。但评估者间一致性分析显示,简洁性领域的一致性低于偶然水平(三个配对kappa值分别为0.07、-0.05、-0.07),语气/专业措辞也仅为轻微一致性(kappa 0.18~0.24),因此这些风格发现应视为探索性。

**内容要素比较**:住院医师撰写的信件更常记录手术操作(操作要素),而GPT-5.2生成的信件更一致地包含发现(如检查所见)。诊断、住院经过、出院治疗、随访指示和出院状态的存在率无显著差异。

**效应量估计**:除上述两个风格领域外,其余领域效应量很小且置信区间跨零。

**评估者调整的敏感性分析**:纳入全部三位评估者的231个评估-病例对后,住院医师信件在准确性、清晰度/结构、简洁性和总体质量方面获得更有利的评分,GPT-5.2仅在语气/专业措辞上保持优势。完整性和错误/遗漏方面无显著差异。

**评估者间一致性**:总体质量和完整性领域一致性中等(kappa 0.37~0.54),准确性中等偏弱(0.21~0.48),而清晰度/结构和风格领域一致性差,尤其简洁性领域低于偶然水平。

讨论部分指出,GPT-5.2在大多数内容驱动领域(如准确性、完整性)与住院医师相当,但在手术细节记录上表现不足,这提示需针对眼科专科进行提示优化和结构化检查清单。GPT-5.2在语气上的优势不应过度解释,因为简洁性可能对临床效率更重要。研究强调,LLM生成的文本可能引入编造(confabulation)或平滑缺失数据等特有风险,不能直接视为终稿,必须经过临床医生审查。局限性包括单中心、单专科设计,评估工具未广泛验证,评估者间一致性在风格领域较低,且未测量实际时间节省或编辑负担。结论部分翻译如下:

**结论**:在主要配对分析中,GPT-5.2生成的眼科出院信在多个评估领域显示出与住院医师撰写的信件相似的性能,但特定内容要素的差异以及不太有利的敏感性分析表明,临床监督仍然是必要的,以确保准确性、手术流程完整性和临床可用性。这些结果支持LLMs作为起草眼科出院信的潜在有用工具,但不能替代临床监督。安全实施将需要专科特异性验证、谨慎的提示设计以及集中于事实准确性、手术流程完整性和临床可用性的强有力人工审查。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号