《Infection Control & Hospital Epidemiology》:Use of a large language model integrated within the electronic medical record for the evaluation of surgical site infections – Northern California, 2025
编辑推荐:
本研究聚焦手术部位感染(SSI)监测人力成本高、效率低的问题,探讨基于电子病历(EMR)的大语言模型(LLM)在SSI判定中的应用。结果显示,gpt-4o-mini模型灵敏度达100%,特异度69.4%,人工筛查负荷减少66%,验证了LLM作为SSI初筛辅助工具的潜力,为感染防控智能化提供了实践依据。
外科手术后,切口愈合不良引发的手术部位感染(Surgical Site Infections,SSI)始终是困扰全球医疗系统的棘手难题。这类感染不仅显著增加患者死亡率与住院费用,更给本已繁忙的临床工作增添沉重负担。传统监测依赖感染预防专业人员(Infection Prevention Professionals,IP)逐份查阅病程记录、对照美国国家医疗安全网络(National Healthcare Safety Network,NHSN)指南进行人工判定,耗时耗力且难以覆盖大规模病例。随着人工智能技术的演进,能否让“会读病历的AI”分担这部分机械劳动?这正是斯坦福大学团队试图解答的关键命题——将大型语言模型嵌入医院信息系统,探索其在SSI裁决中的真实效能,相关成果发表于《Infection Control》期刊。
为检验这一设想,研究团队首先确立了严谨的实验路径:他们从2023年全年5299例外科手术病例中,经IP人工复核锁定146例确诊SSI(真阳性)。随后,开发名为ChatEHR SSI解决方案的专用智能体,搭载gpt-4o-mini模型,输入NHSN定义的浅表、深部及器官腔隙SSI判据后,系统自动扫描患者围术期文本记录(不含实验室及影像数据),对每例患者是否存在SSI及分型给出判断与简释,并将“疑似阳性”标记供IP复审。此外,随机抽取50例模型假阳性案例作归因分析,并与两名IP开展非结构化访谈,提炼一线反馈。
结果
识别效力与误判特征
模型展现出完美的捕获能力——146例人工确认的真阳性无一遗漏,敏感度达100%;但在特异性层面表现平平,仅为69.4%,产生1576例假阳性。深入剖析发现,模型易将非感染性术后积液(如血清肿)、血性或浆液性引流描述、以及为治疗原有感染(如骨髓炎)而手术的患者,错误归类为SSI事件。
工作负荷优化与人文反馈
尽管存在过召现象,模型将需人工筛查的病例数从5299例压缩至1722例,降幅达66%。受访IP认为,AI可作为“第二双眼”提升阴性判定的信心,但指出其未整合化验与外院资料限制了决策完整性。他们强调,模型开发需全程纳入IP参与,通过培训建立信任,最终目标是让人工专注于现场感控而非案头审阅。
结论与启示
研究表明,基于LLM的SSI裁决工具虽特异性有待提升,但其极高灵敏度与显著的工作减负效应,证明其具备成为感染监测高效助手的潜质。未来需跨机构验证泛化性,并通过提示工程与多模态数据融合改进精确度,实现AI辅助下的人类专家效能倍增,而非替代。