急诊外科临床可解释机器学习在急腹症中的应用：不同时相临床特征的重要性及启示——以急腹痛病例为例

《Langenbeck's Archives of Surgery》：Towards clinically interpretable machine learning in emergency surgery: feature importance and insights across clinical time points in abdominal pain cases

【字体：大中小】 时间：2026年06月18日 来源：Langenbeck's Archives of Surgery 2.1

编辑推荐：

　　目的（Purpose）：机器学习（Machine Learning, ML）可能辅助急性腹痛（Acute Abdominal Pain, AAP）的决策，但可解释性不足限制了其临床应用。研究人员评估了用于预测需紧急腹部手术（urgent abdominal s

目的（Purpose）：机器学习（Machine Learning, ML）可能辅助急性腹痛（Acute Abdominal Pain, AAP）的决策，但可解释性不足限制了其临床应用。研究人员评估了用于预测需紧急腹部手术（urgent abdominal surgery）的随机森林（Random Forest）分类器，并探讨预测价值与特征重要性（feature importance）如何随临床时间节点演变。方法（Methods）：本回顾性单中心研究纳入急诊科就诊的成人AAP患者，主要结局为入院24 h内行紧急腹部手术。特征按序分组为逐步特征集（stepwise sets），各特征集在20次随机80/20训练–测试划分下训练模型并行随机超参数搜索，性能以受试者工作特征曲线下面积（Area Under the ROC Curve, AUC ROC）及精确率–召回率曲线下面积（Area Under the Precision–Recall Curve, AUC PR）表示，可解释性以排列重要性（permutation importance）及SHapley Additive exPlanations（SHAP）评估。结果（Results）：1350例患者（中位年龄43岁，女性682例［50.5％］），276例（20.4％）接受紧急手术。最终模型中位AUC ROC为0.83。判别能力逐步提升：基本信息（0.53）→症状（0.61）→疼痛病史（0.66）→生命体征（0.68）→实验室检查（0.76）→体格检查（0.83）；计算机断层扫描（Computed Tomography, CT）仅边际提升至0.83。特征重要性由症状转为生命体征，再转为实验室标志物——尤以C反应蛋白（C-reactive Protein, CRP）、白细胞计数（White Blood Cell count, WBC）和凝血酶原时间（prothrombin time, PT/Quick值）为主，辅以腹肌卫（guarding）。SHAP分析证实异常实验室或临床值与手术结局一致相关。结论（Conclusion）：可解释的ML可实现AAP患者影像学检查前紧急手术风险分层。实验室及体格检查后即可获得接近最终的判别能力，CT在群体水平追加价值有限。时相特异性特征贡献有助于ML整合入外科决策。

论文解读：《Langenbeck's Archives of Surgery》发表——急腹症急诊外科可解释机器学习预测紧急手术风险及临床时相特征演变分析

一、研究背景与立项依据

急性腹痛（Acute Abdominal Pain, AAP）是急诊科最常见且潜在危及生命的就诊原因，其核心临床挑战是及时区分可保守治疗与需紧急腹部手术（urgent abdominal surgery，定义为入院24 h内施行）的疾病。目前急诊外科决策依赖病史、生命体征、实验室检验、体格检查和影像学（通常为计算机断层扫描Computed Tomography, CT）的序贯获取，但已有机器学习（Machine Learning, ML）预测模型多将所有特征视为同时可用，忽略临床信息采集的时间次序，且"黑盒"特性导致临床医生难以理解预测依据，阻碍实际应用。虽有少数研究涉及时序建模或可解释性，但同时考虑AAP全谱疾病、序贯临床时间节点（clinical time points）及可解释特征归因（explainable feature attribution）的研究尚缺。为此，研究人员开展本回顾性单中心研究，构建随机森林（Random Forest）分类器预测AAP患者是否需24 h内紧急手术，并按临床信息采集顺序逐步加入特征集，量化各时点模型性能增量及特征重要性的动态变化，结合排列重要性（permutation importance）与SHapley Additive exPlanations（SHAP）进行全局与个体层面可解释性分析，以期为急诊外科决策提供透明、时序对齐的ML辅助工具。

二、主要关键技术方法

研究人员回顾性纳入2020—2021年某三级医院急诊科以"成人腹痛"为主诉的1350例成人AAP患者，主要结局为24 h内行紧急腹部手术。临床变量按急诊诊疗 workflow 分为7个递增特征集：1基本信息（年龄、性别）；2症状（恶心、呕吐、腹泻等）；3疼痛病史（部位、持续时间）；4生命体征（收缩压、心率、体温等）；5实验室值（C反应蛋白C-reactive Protein [CRP]、白细胞计数White Blood Cell count [WBC]、凝血酶原时间Quick值等）；6体格检查（肌卫guarding、反跳痛、髂窝压痛等）；7_CT表现（游离气体、游离液体、脂肪条纹征、肠梗阻，二值编码）。缺失值不予插补，由H2O随机森林内部处理。分别对各特征集（含之前所有集叠加）用H2O随机森林训练，重复20次80/20随机拆分，训练集内经10折交叉验证随机网格搜索调参（ntrees、max_depth、sample_rate、mtries），以训练折AUC PR选最优模型并在独立测试集评估，报告AUC ROC与AUC PR的中位数及四分位距（Interquartile Range, IQR）。可解释性采用H2O内置排列重要性与树模型SHAP特征贡献值，并进行个案瀑布图（waterfall plot）展示。

三、研究结果

Study cohort（研究队列）

1350例AAP患者中位年龄43岁（IQR 29–64），女性682例（50.5%），276例（20.4%）于24 h内接受紧急腹部手术，涵盖阑尾炎、消化道穿孔、胆囊炎、肠梗阻等多类外科及部分非外科最终诊断。

Model performance（模型性能）

最终含全部特征集的模型中位AUC ROC为0.83（IQR 0.81–0.85），中位AUC PR为0.62（IQR 0.58–0.64）。判别能力随特征集递增：基本信息AUC ROC 0.53→症状0.61→疼痛病史0.66→生命体征0.68→实验室值0.76→体格检查0.83；加入CT后AUC ROC仍为0.83（AUC PR微升至0.62）。提示实验室+体格检查阶段已达近最终判别水平，CT对"是否需紧急手术"二分类预测的人群水平增量有限。

Feature importance（特征重要性）

排列重要性显示特征贡献动态迁移：症状集阶段年龄、恶心、腹泻、既往手术史、呕吐最重要；加入疼痛史后疼痛持续时间与部位上升；加入生命体征后生命体征主导，仅年龄保留于前五位；实验室值加入后CRP、WBC及凝血酶原时间（Quick）成为最主要预测因子，此地位延续至含体格检查及CT的全模型中，后者仅新增右髂窝压痛（tenderness）与肌卫（guarding）补充预测价值。

Global interpretability（全局可解释性——SHAP分析）

SHAP概要图印证上述趋势：症状阶段年龄与恶心呕吐影响最大；疼痛史阶段部位与持续时间突显；生命体征阶段收缩压与心率主导；实验室阶段WBC、CRP、Quick值居首；体格检查阶段肌卫与实验室标志物共同驱动；CT阶段实验室变量仍居前五位，CT二值特征未入前五。异常升高之实验室值/阳性体征与高手术风险预测相关联，正常范围/阴性发现压低预测概率。

Local interpretability（局部可解释性——个体SHAP瀑布图）

以典型病例示之：急性阑尾炎患者高预测风险由高CRP、胆红素升高及肌卫共同推升；肝脓肿伴脓毒症病例由异常实验室及全身感染征象驱动；非特异性腹痛病例因实验室正常且无肌卫获低手术风险评分——说明模型个体化决策可依关键临床特征溯源。

四、讨论与结论翻译

研究人员指出，ML预测支持AAP外科决策可在诊疗早期（实验室+体格检查可获得时）达到具临床意义的判别力，结合SHAP可提供人群水平与个体水平的临床可理解解释，利于信任与整合入日常workflow。CT虽对鉴别诊断、病情分级及治疗规划不可或缺，但在本"24 h内需否紧急手术"二分类预测的人群层面未进一步显著提升AUC，ML预筛可助合理分配CT资源。实验室标志物（尤其CRP、WBC、PT）贡献较部分临床直觉预期更大，肌卫作为外科体检核心体征仍不可替代。模型设计意在术前外科医师介入前即提供结构化分诊提示，弥补急诊外科人力不足，但不能替代医师临床判断与责任。局限性含单中心回顾性、选择偏倚、仅用随机森林、未纳入新型炎症标志物及结构化影像组学特征、未在真实临床流程中前瞻性验证。

结论（Conclusion）翻译：

本研究表明可解释机器学习可为AAP诊断过程提供有价值见解。特征相关性随临床时间节点的动态偏移提示预测并非静态，而随诊断轨迹演化。主观症状与客观生物标志物共同位居最重要预测因子之列，凸显急诊外科临床决策的多维属性。这些发现强调体格检查与临床判断之不可替代性，ML可作为透明辅助工具而非取代医师。需在真实临床workflow中开展前瞻性验证，以确保算法支持增强而非替代既有诊疗实践。

（注：全文内容及数据均浓缩自上传论文原文，未添加推测性表述；专业术语首次出现标注英文，上下标如ROC、AUC、C-reactive Protein [CRP]、WBC、SHAP、IQR等保留标准书写；文献引用标号及图/表指引已去除。）

热点排行