用于急诊科胸痛患者风险分层的自然语言处理(Natural Language Processing for Risk-Stratification of Emergency Department Patients with Chest Pain)

《CJC Open》：Natural Language Processing for risk-stratification of emergency department patients with chest pain

【字体：大中小】 时间：2026年06月18日 来源：CJC Open 1.9

编辑推荐：

　　背景(BACKGROUND)：自然语言处理(Natural Language Processing, NLP)可将非结构化临床数据转化为可操作的见解，优化工作流程、改善患者结局并减少偏倚。研究人员创建了一种机器学习(Machine Learning, ML)模

背景(BACKGROUND)：自然语言处理(Natural Language Processing, NLP)可将非结构化临床数据转化为可操作的见解，优化工作流程、改善患者结局并减少偏倚。研究人员创建了一种机器学习(Machine Learning, ML)模型，基于医师病历记录预测对急性冠脉综合征(acute coronary syndrome, ACS)的疑似程度，并评估其在HEART（病史History、心电图ECG、年龄Age、危险因素Risk Factors、肌钙蛋白Troponin，HEART score）评分中纳入后预测主要不良心脏事件(major adverse cardiac events, MACE)的能力。方法(METHODS)：研究人员回顾性分析了渥太华医院急诊科因胸痛就诊的成人患者。由GPT-4从医师记录的现病史(history of present illness, HPI)中产出并提取11项二分类症状特征。使用极端梯度提升(eXtreme Gradient Boosting, XGBoost)分类器对这些特征进行训练，以预测急诊科处置方式——作为医师怀疑ACS（physician suspicion of ACS, pACS）的替代指标。由此得出的NLP衍生ACS怀疑评分(nACS)替换HEART评分中的病史(History)部分形成nHEART，并与基于处置的复合评分(pHEART)进行比较。结果(RESULTS)：共1011例患者（48.5%女性；平均年龄55.7岁），其中69例(6.8%)在6周内发生MACE。nHEART的灵敏度为97.1%、特异度为53.8%；pHEART的灵敏度为95.7%、特异度为69.1%。pACS和肌钙蛋白(Troponin)是多变量分析中最强的预测因子。GPT-4o提取结果显示各次运行间Fleiss' κ > 0.8，与研究助理人工提取相比Cohen's κ > 0.6。结论(CONCLUSIONS)：大语言模型(Large Language Models, LLMs)可从急诊科病历中提取结构化症状特征，基于这些特征训练的XGBoost模型可复现对ACS粗略的医师怀疑度量。临床部署需进一步以前瞻性记录的医师ACS怀疑指标进行模型训练和检验。

论文解读：《CJC Open》—用于急诊科胸痛患者风险分层的自然语言处理

研究背景与立题依据

胸痛是急诊科（Emergency Department, ED）最常见就诊原因之一，早期鉴别急性冠脉综合征（acute coronary syndrome, ACS）至关重要。HEART评分（History, ECG, Age, Risk Factors, Troponin score）是常用的胸痛风险分层工具，总分0–10分，≤3分为低风险可安全出院，减少不必要的检查与住院。然而HEART评分中的"病史（History）"部分被批评具有主观性，不同年资和专科的医师评定存在分歧。大语言模型（Large Language Model, LLM）如基于GPT-4架构的ChatGPT在诊断推理和客观风险分层中展现出潜力，但也有研究指出GPT-4在面对大量非结构化数据给出ACS诊疗建议时存在严重的不一致性和不可靠性。因此，本研究旨在探究将LLM（GPT-4用于特征发现、GPT-4o用于每例患者特征提取）与梯度提升机器学习相结合，从真实ED就诊医师记录中提取结构化特征并构建预测模型，验证其能否复现医师对ACS的怀疑程度，并在替代HEART评分中病史部分后预测6周主要不良心脏事件（major adverse cardiac events, MACE；包括急性心肌梗死、血运重建、不稳定型心绞痛住院及全因死亡）。

主要关键技术方法

研究人员回顾性纳入2019年11月27日至2020年1月8日加拿大The Ottawa Hospital两家学术型ED中以"具心脏特征的胸痛"为分诊标签的成人患者，排除ST段抬高型心肌梗死（ST-elevation myocardial infarction, STEMI）、<18岁、外伤性胸痛、外院转入、无心电图（ECG）、近1个月已排查胸痛、医师未接诊前离院、非本院 catchment区居住及ED内心搏骤停者，最终分析队列n=1011。由GPT-4分析高危处置组（n=123，ED内请心内科会诊）现病史（history of present illness, HPI）归纳出11项二分类症状特征；通过OpenAI API调用固定快照gpt-4o-2024-05-13对每例患者每项特征独立做二元JSON输出提取（重复5次评估稳定性）。以医师处置（出院家庭医师随访=低风险 vs ED心内会诊=高风险，中间门诊心内转诊者排除出训练集）为标签，使用极端梯度提升（XGBoost）分类器训练11个二元症状特征得到连续预测概率即NLP衍生ACS怀疑评分（nACS），按核密度估计局部极小值划为三等级（0/1/2）替代HEART中History分量形成nHEART（nACS+ECG+Age+Risk Factors+Troponin），与基于处置的医师怀疑评分（pACS）构建的pHEART比较。主要终点为索引ED就诊6周内MACE，采用分层划分、随机欠采样平衡训练集、GridSearchCV调参、嵌套5×5交叉验证及DeLong法计算ROC AUC，用Fleiss' κ和Cohen's κ评估GPT-4o提取一致性，McNemar检验比较分类性能。

研究结果

人群基线特征

1011例患者中女性48.5%，平均55.7岁；ED心内会诊123例、门诊心内转诊96例、家庭医师随访792例；6周内发生MACE 69例（51.2%发生于ED已请心内会诊组）。49例（4.8%）未测高敏肌钙蛋白，按阴性填补行敏感性分析，主要指标变化≤0.011，结论不变。

GPT-4o特征提取可靠性

GPT-4o五次独立API运行对所有11项临床特征的Fleiss' κ均>0.8（四次May 2025运行κ更高），表明自身运行间一致性良好。与科研助理人工单次提取6项特征比较，Cohen's κ均>0.6（四项>0.8），提取准确率>90%，证明LLM在约束提示下可可靠完成结构化临床特征抽取。

nACS与pACS及复合HEART评分性能

nACS单独判定MACE灵敏度94.2%（与pACS相同，McNemar p=0.68），但特异度34.5%显著低于pACS的83.7%（p<0.0001），产生较多假阳性。将其纳入HEART评分后，nHEART灵敏度97.1%（略高于pHEART 95.7%，p=1.0），特异度53.8%（低于pHEART 69.1%，p<0.0001）。nHEART负预测值（Negative Predictive Value, NPV）达1.00，提示适合用于极低危筛查。XGBoost嵌套交叉验证AUC为0.783±0.061，单划分代表性模型测试集AUC 0.79（95%CI 0.69–0.89）。

HEART各分量与MACE关联

单变量Logistic回归显示HEART五分量均显著相关（p<0.001），但多变量中仅pACS（OR=12.23, p<0.001）和肌钙蛋白（Troponin；OR=2.85, p<0.001）保留显著性，年龄、ECG及危险因素计数在多变量中不显著——作者指出pACS作为处置替代指标吸收了其余HEART分量信息致其系数衰减；去除pACS后ECG和危险因素恢复显著性。Mean Decrease Gini及LASSO系数均显示pACS重要性最高，其次为肌钙蛋白。

讨论与结论翻译

nACS对6周MACE达到与pACS相当的灵敏度（94.2% vs 94.2%）但特异度明显更低（34.5% vs 83.7%）。加入其余HEART分量后差距缩小：nHEART灵敏度略超pHEART（97.1% vs 95.7%），特异度仍较低（53.8% vs 69.1%）。提示NLP衍生的病史特征能保留HEART筛查的灵敏度但以更多患者被标记复查为代价——此折衷在低危排除（rule-out）场景可接受，但目前尚不足以自主分诊。多变量中仅pACS和肌钙蛋白显著，提示机器学习加权组合可能优于HEART原始等权加分，但需在各地重新推导验证。GPT-4o在单任务约束提示下特征提取可靠性高（Fleiss' κ>0.8，Cohen's κ>0.6），说明LLM虽尚不适为自主临床决策者，但可提供下游ML模型所需的结构化特征。nHEART高灵敏度（97.1%）及接近完美的NPV使其最有前景的用途是识别极低位风险人群；低特异度暂不支持直接作分诊工具。局限性包括：pACS是处置而非纯粹医师临床印象的代理指标（含肌钙蛋白、ECG等信息，高估了纯病史比较中的特异性优势）；单中心、6周窗口期抽样变异需嵌套交叉验证佐证；外部泛化性（不同文书习惯、肌钙蛋白检测、人群）未建立。此为已知首个评估GPT-4o从真实ED医师病历提取表格化临床数据准确性与可靠性并结合ML构建风险分层算法的研究。大语言模型可从非结构化ED记录中可靠提取结构化症状特征以支持HEART框架下的下游风险建模。未来工作应针对标准化记录的医师ACS怀疑指标做前瞻性验证、多中心跨文书风格及肌钙蛋白检测评估，并对ACS不典型表现人群（女性及老年人）专门建模。

结论（CONCLUSIONS）：

大语言模型可以从急诊科病历笔记中提取结构化症状特征，且基于这些特征训练的极端梯度提升（XGBoost）模型能够复现对急性冠脉综合征（ACS）粗略的医师怀疑度量。临床部署将需要进一步以前瞻性记录的医师ACS怀疑指标进行模型训练和检验。

热点排行