用于急诊科胸痛患者风险分层的自然语言处理(Natural Language Processing for Risk-Stratification of Emergency Department Patients with Chest Pain)

《CJC Open》:Natural Language Processing for risk-stratification of emergency department patients with chest pain

【字体: 时间:2026年06月18日 来源:CJC Open 1.9

编辑推荐:

  背景(BACKGROUND):自然语言处理(Natural Language Processing, NLP)可将非结构化临床数据转化为可操作的见解,优化工作流程、改善患者结局并减少偏倚。研究人员创建了一种机器学习(Machine Learning, ML)模

  
背景(BACKGROUND):自然语言处理(Natural Language Processing, NLP)可将非结构化临床数据转化为可操作的见解,优化工作流程、改善患者结局并减少偏倚。研究人员创建了一种机器学习(Machine Learning, ML)模型,基于医师病历记录预测对急性冠脉综合征(acute coronary syndrome, ACS)的疑似程度,并评估其在HEART(病史History、心电图ECG、年龄Age、危险因素Risk Factors、肌钙蛋白Troponin,HEART score)评分中纳入后预测主要不良心脏事件(major adverse cardiac events, MACE)的能力。 方法(METHODS):研究人员回顾性分析了渥太华医院急诊科因胸痛就诊的成人患者。由GPT-4从医师记录的现病史(history of present illness, HPI)中产出并提取11项二分类症状特征。使用极端梯度提升(eXtreme Gradient Boosting, XGBoost)分类器对这些特征进行训练,以预测急诊科处置方式——作为医师怀疑ACS(physician suspicion of ACS, pACS)的替代指标。由此得出的NLP衍生ACS怀疑评分(nACS)替换HEART评分中的病史(History)部分形成nHEART,并与基于处置的复合评分(pHEART)进行比较。 结果(RESULTS):共1011例患者(48.5%女性;平均年龄55.7岁),其中69例(6.8%)在6周内发生MACE。nHEART的灵敏度为97.1%、特异度为53.8%;pHEART的灵敏度为95.7%、特异度为69.1%。pACS和肌钙蛋白(Troponin)是多变量分析中最强的预测因子。GPT-4o提取结果显示各次运行间Fleiss' κ > 0.8,与研究助理人工提取相比Cohen's κ > 0.6。 结论(CONCLUSIONS):大语言模型(Large Language Models, LLMs)可从急诊科病历中提取结构化症状特征,基于这些特征训练的XGBoost模型可复现对ACS粗略的医师怀疑度量。临床部署需进一步以前瞻性记录的医师ACS怀疑指标进行模型训练和检验。
论文解读:《CJC Open》—用于急诊科胸痛患者风险分层的自然语言处理
研究背景与立题依据
胸痛是急诊科(Emergency Department, ED)最常见就诊原因之一,早期鉴别急性冠脉综合征(acute coronary syndrome, ACS)至关重要。HEART评分(History, ECG, Age, Risk Factors, Troponin score)是常用的胸痛风险分层工具,总分0–10分,≤3分为低风险可安全出院,减少不必要的检查与住院。然而HEART评分中的"病史(History)"部分被批评具有主观性,不同年资和专科的医师评定存在分歧。大语言模型(Large Language Model, LLM)如基于GPT-4架构的ChatGPT在诊断推理和客观风险分层中展现出潜力,但也有研究指出GPT-4在面对大量非结构化数据给出ACS诊疗建议时存在严重的不一致性和不可靠性。因此,本研究旨在探究将LLM(GPT-4用于特征发现、GPT-4o用于每例患者特征提取)与梯度提升机器学习相结合,从真实ED就诊医师记录中提取结构化特征并构建预测模型,验证其能否复现医师对ACS的怀疑程度,并在替代HEART评分中病史部分后预测6周主要不良心脏事件(major adverse cardiac events, MACE;包括急性心肌梗死、血运重建、不稳定型心绞痛住院及全因死亡)。
主要关键技术方法
研究人员回顾性纳入2019年11月27日至2020年1月8日加拿大The Ottawa Hospital两家学术型ED中以"具心脏特征的胸痛"为分诊标签的成人患者,排除ST段抬高型心肌梗死(ST-elevation myocardial infarction, STEMI)、<18岁、外伤性胸痛、外院转入、无心电图(ECG)、近1个月已排查胸痛、医师未接诊前离院、非本院 catchment区居住及ED内心搏骤停者,最终分析队列n=1011。由GPT-4分析高危处置组(n=123,ED内请心内科会诊)现病史(history of present illness, HPI)归纳出11项二分类症状特征;通过OpenAI API调用固定快照gpt-4o-2024-05-13对每例患者每项特征独立做二元JSON输出提取(重复5次评估稳定性)。以医师处置(出院家庭医师随访=低风险 vs ED心内会诊=高风险,中间门诊心内转诊者排除出训练集)为标签,使用极端梯度提升(XGBoost)分类器训练11个二元症状特征得到连续预测概率即NLP衍生ACS怀疑评分(nACS),按核密度估计局部极小值划为三等级(0/1/2)替代HEART中History分量形成nHEART(nACS+ECG+Age+Risk Factors+Troponin),与基于处置的医师怀疑评分(pACS)构建的pHEART比较。主要终点为索引ED就诊6周内MACE,采用分层划分、随机欠采样平衡训练集、GridSearchCV调参、嵌套5×5交叉验证及DeLong法计算ROC AUC,用Fleiss' κ和Cohen's κ评估GPT-4o提取一致性,McNemar检验比较分类性能。
研究结果
人群基线特征
1011例患者中女性48.5%,平均55.7岁;ED心内会诊123例、门诊心内转诊96例、家庭医师随访792例;6周内发生MACE 69例(51.2%发生于ED已请心内会诊组)。49例(4.8%)未测高敏肌钙蛋白,按阴性填补行敏感性分析,主要指标变化≤0.011,结论不变。
GPT-4o特征提取可靠性
GPT-4o五次独立API运行对所有11项临床特征的Fleiss' κ均>0.8(四次May 2025运行κ更高),表明自身运行间一致性良好。与科研助理人工单次提取6项特征比较,Cohen's κ均>0.6(四项>0.8),提取准确率>90%,证明LLM在约束提示下可可靠完成结构化临床特征抽取。
nACS与pACS及复合HEART评分性能
nACS单独判定MACE灵敏度94.2%(与pACS相同,McNemar p=0.68),但特异度34.5%显著低于pACS的83.7%(p<0.0001),产生较多假阳性。将其纳入HEART评分后,nHEART灵敏度97.1%(略高于pHEART 95.7%,p=1.0),特异度53.8%(低于pHEART 69.1%,p<0.0001)。nHEART负预测值(Negative Predictive Value, NPV)达1.00,提示适合用于极低危筛查。XGBoost嵌套交叉验证AUC为0.783±0.061,单划分代表性模型测试集AUC 0.79(95%CI 0.69–0.89)。
HEART各分量与MACE关联
单变量Logistic回归显示HEART五分量均显著相关(p<0.001),但多变量中仅pACS(OR=12.23, p<0.001)和肌钙蛋白(Troponin;OR=2.85, p<0.001)保留显著性,年龄、ECG及危险因素计数在多变量中不显著——作者指出pACS作为处置替代指标吸收了其余HEART分量信息致其系数衰减;去除pACS后ECG和危险因素恢复显著性。Mean Decrease Gini及LASSO系数均显示pACS重要性最高,其次为肌钙蛋白。
讨论与结论翻译
nACS对6周MACE达到与pACS相当的灵敏度(94.2% vs 94.2%)但特异度明显更低(34.5% vs 83.7%)。加入其余HEART分量后差距缩小:nHEART灵敏度略超pHEART(97.1% vs 95.7%),特异度仍较低(53.8% vs 69.1%)。提示NLP衍生的病史特征能保留HEART筛查的灵敏度但以更多患者被标记复查为代价——此折衷在低危排除(rule-out)场景可接受,但目前尚不足以自主分诊。多变量中仅pACS和肌钙蛋白显著,提示机器学习加权组合可能优于HEART原始等权加分,但需在各地重新推导验证。GPT-4o在单任务约束提示下特征提取可靠性高(Fleiss' κ>0.8,Cohen's κ>0.6),说明LLM虽尚不适为自主临床决策者,但可提供下游ML模型所需的结构化特征。nHEART高灵敏度(97.1%)及接近完美的NPV使其最有前景的用途是识别极低位风险人群;低特异度暂不支持直接作分诊工具。局限性包括:pACS是处置而非纯粹医师临床印象的代理指标(含肌钙蛋白、ECG等信息,高估了纯病史比较中的特异性优势);单中心、6周窗口期抽样变异需嵌套交叉验证佐证;外部泛化性(不同文书习惯、肌钙蛋白检测、人群)未建立。此为已知首个评估GPT-4o从真实ED医师病历提取表格化临床数据准确性与可靠性并结合ML构建风险分层算法的研究。大语言模型可从非结构化ED记录中可靠提取结构化症状特征以支持HEART框架下的下游风险建模。未来工作应针对标准化记录的医师ACS怀疑指标做前瞻性验证、多中心跨文书风格及肌钙蛋白检测评估,并对ACS不典型表现人群(女性及老年人)专门建模。
结论(CONCLUSIONS):
大语言模型可以从急诊科病历笔记中提取结构化症状特征,且基于这些特征训练的极端梯度提升(XGBoost)模型能够复现对急性冠脉综合征(ACS)粗略的医师怀疑度量。临床部署将需要进一步以前瞻性记录的医师ACS怀疑指标进行模型训练和检验。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号