机器学习预测术后肺栓塞：一项聚焦炎症反应与术中血流动力学的多中心外部验证研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Cardiovascular Medicine》：Machine learning prediction of postoperative pulmonary embolism: a multicenter external validation study highlighting inflammatory response and intraoperative hemodynamics

【字体：大中小】 时间：2026年06月18日 来源：Frontiers in Cardiovascular Medicine 2.9

编辑推荐：

　　背景：术后肺栓塞（postoperative pulmonary embolism, PE）是一种罕见但危及生命的术后并发症。早期识别高危患者至关重要，但由于围手术期危险因素的异质性，这仍然具有挑战性。本研究旨在开发并外部验证一个基于机器学习的术后PE预测模型

背景：术后肺栓塞（postoperative pulmonary embolism, PE）是一种罕见但危及生命的术后并发症。早期识别高危患者至关重要，但由于围手术期危险因素的异质性，这仍然具有挑战性。本研究旨在开发并外部验证一个基于机器学习的术后PE预测模型，并利用可解释的人工智能探索关键的临床决定因素。
方法：这项多中心回顾性研究纳入了2020年1月至2025年1月期间来自六家医院的外科患者。根据医院来源，患者被分为内部数据集和外部数据集。共纳入3,494名患者，其中内部队列2,005名，外部验证队列1,489名。候选变量采用混合策略进行筛选，该策略结合了单变量和多变量逻辑回归以及来自五种机器学习算法（包括XGBoost、随机森林、支持向量机、K-近邻和多层感知器）的特征重要性排序。模型性能通过受试者工作特征（ROC）曲线、校准曲线、决策曲线分析（DCA）、Kolmogorov–Smirnov（KS）统计量和混淆矩阵进行评估。进一步进行了K折交叉验证和外部验证以评估模型的稳健性。采用SHapley Additive exPlanations（SHAP）进行模型可解释性和个体化预测。
结果：共有48名患者（1.38%）发生术后PE。最终选定的预测因子包括年龄、体重指数（BMI）、恶性肿瘤病史、长期卧床、手术持续时间、术中心动过速、C反应蛋白（CRP）、中性粒细胞-淋巴细胞比率（NLR）和术后D-二聚体。在五种机器学习模型中，XGBoost表现出最佳的整体性能和稳定性，实现了优异的区分度和校准度。在内部验证中，该模型显示出强大的预测性能；在外部验证队列中，其AUC达到0.925（95% CI 0.877–0.972），校准良好，且在DCA上表现出良好的临床净获益。K折交叉验证证实了模型在重采样集上的稳健性。SHAP分析确定手术持续时间、CRP水平、恶性肿瘤病史、年龄、BMI、术后D-二聚体、NLR和术中心动过速为最具影响力的预测因子。个体水平的SHAP解释进一步揭示了术后PE具有临床意义的风险归因模式。
结论：研究人员开发并外部验证了一个稳健的机器学习模型，用于预测跨多种手术人群的术后肺栓塞。该模型表现出强大的区分能力、良好的校准度和有利的临床实用性。重要的是，基于SHAP的解释揭示了与PE风险相关的关键围手术期炎症、血栓形成和血流动力学因素，为支持临床决策提供了预测性和机制性的见解。

**论文解读：基于机器学习的术后肺栓塞预测模型开发与外部验证**

**一、研究背景与问题**

术后肺栓塞（pulmonary embolism, PE）是静脉血栓栓塞症（venous thromboembolism, VTE）的终末表现，虽发生率较低（约1%–2%），但起病隐匿、病情进展迅速，可导致右心衰竭甚至死亡。外科手术作为PE的重要获得性危险因素，通过激活Virchow三要素（血管内皮损伤、血流淤滞、高凝状态）显著增加血栓风险。然而，现有临床评估工具存在明显局限：Wells评分和修正Geneva评分在术后人群中判别效度显著下降；D-二聚体因术后伤口愈合导致假阳性率骤升（特异性低于30%）；CT肺动脉造影（CT pulmonary angiography, CTPA）存在辐射暴露、对比剂肾病风险及经济负担。因此，亟需一种能够整合动态多维围手术期信息并支持非线性建模的客观量化预测工具。近年来，机器学习算法在处理高维非线性变量关系方面展现出优势，本研究旨在利用机器学习构建并验证适用于术后人群的PE风险预测模型。

**二、研究内容与结论**

研究人员开展了一项多中心回顾性研究，纳入2020年1月至2025年1月来自中国六家三级医院的外科患者共3,494例（内部队列2,005例，外部验证队列1,489例）。采用两阶段特征选择策略（单变量及多变量logistic回归 + 五种机器学习算法特征重要性排序）确定最终预测因子，构建并比较K-近邻（KNN）、XGBoost、随机森林（RF）、支持向量机（SVM）和多层感知器（MLP）五种模型的性能。结果表明，XGBoost模型在区分度、校准度和临床净获益方面表现最佳，内部验证AUC 0.856，外部验证AUC 0.925。SHAP（SHapley Additive exPlanations）分析揭示了手术持续时间、术后C反应蛋白（CRP）、恶性肿瘤病史、年龄、体重指数（BMI）、术后D-二聚体、中性粒细胞-淋巴细胞比率（NLR）和术中心动过速为最强预测因子。研究重要意义在于：提供了可解释的机器学习预测工具，揭示了围手术期炎症、血栓形成和血流动力学因素协同驱动PE风险的作用机制。论文发表在《Frontiers in Cardiovascular Medicine》。

**三、关键技术与方法**

本研究采用以下关键技术方法：（1）两阶段特征选择策略：先通过单变量及多变量logistic回归筛选独立危险因素，再应用XGBoost、随机森林、支持向量机、K-近邻和多层感知器五种算法进行特征重要性排序，取二者并集为最终特征集；（2）模型构建与比较：基于选定特征构建五种机器学习模型，以受试者工作特征曲线下面积（AUC）、校准曲线、决策曲线分析（DCA）、Kolmogorov–Smirnov（KS）统计量及混淆矩阵评估性能；（3）分层K折交叉验证（k=10）以应对低发生率事件的过拟合风险；（4）外部验证：使用来自不同地理区域和医疗机构的独立数据集（1,489例）评估模型泛化能力；（5）模型可解释性：采用SHAP进行全局和个体水平特征归因分析，同时基于logistic回归构建列线图（nomogram）提供临床直观风险评估工具。样本队列来源于中国六家三级医院，包括南京医科大学附属无锡人民医院、无锡市第二人民医院、宜兴市人民医院（内部数据集）以及滕州市中心人民医院、高密市人民医院、滕州市中医医院（外部验证队列）。

**四、研究结果**

**基线临床特征**：共3,494例患者，术后PE发生48例（1.38%）。与未发生PE组相比，PE组患者年龄更大（≥65岁：62.5% vs 43.4%）、BMI更高（≥25 kg/m2：66.7% vs 36.7%）、合并高血压（45.8% vs 17.9%）、糖尿病（35.4% vs 14.0%）及恶性肿瘤病史（66.7% vs 21.4%）比例更高，长期卧床（62.5% vs 24.5%）、急诊手术（45.8% vs 28.6%）、手术时间≥270 min（66.7% vs 28.0%）、术中心动过速（60.4% vs 24.6%）更常见，术后CRP（≥10 mg/L：64.6% vs 21.9%）、NLR（≥3：66.7% vs 25.7%）及D-二聚体（≥0.5 mg/L：79.2% vs 28.6%）显著升高（均P<0.05）。

**多变量logistic回归与机器学习算法**：多变量logistic回归鉴定年龄、BMI、高血压、恶性肿瘤病史、长期卧床、手术时间、术中心动过速、CRP、NLR和术后D-二聚体为独立预测因子。五种机器学习算法特征重要性排序一致支持上述变量（除高血压外）为重要特征，最终特征集包括年龄、BMI、恶性肿瘤病史、长期卧床、手术时间、术中心动过速、CRP、NLR和术后D-二聚体。

**XGBoost模型性能**：XGBoost在五种模型中表现最优，验证集AUC 0.856（95% CI 0.728–0.977），敏感性0.583，特异性0.915，F1评分0.841，Kappa 0.784。校准曲线显示XGBoost和RF校准良好（Brier评分分别为0.015和0.014），DCA显示XGBoost和RF提供更高净临床获益。10折交叉验证中，XGBoost平均AUC 0.8821±0.1226，测试集AUC 0.8232。KS曲线显示最大区分度阈值0.010，KS统计量0.569。学习曲线显示模型随训练样本增大性能稳定，无过拟合或欠拟合。混淆矩阵显示训练集正确识别1,341例真阴性和20例真阳性，测试集正确识别565例真阴性和2例真阳性。

**外部验证**：在外部验证队列（1,489例）中，XGBoost模型AUC达0.925（95% CI 0.877–0.972），Brier评分0.012，校准良好，DCA显示广泛阈值概率下临床净获益显著。

**SHAP可解释性**：全局SHAP总结图显示预测因子重要性排序（降序）：手术时间、CRP升高、恶性肿瘤病史、年龄、BMI、术后D-二聚体、NLR、术中心动过速、长期卧床。个体SHAP决策图展示了五例典型患者的风险归因模式。此外，基于logistic回归构建的列线图实现了床边风险评估（示例患者总分133分，对应PE预测概率0.0846%）。

**五、讨论与结论**

**讨论总结**：本研究同时构建了基于logistic回归的列线图和多种机器学习模型，对比了传统评分系统与数据驱动方法的优劣。传统列线图具有内在可解释性强、易于床边计算等优点，但受限于线性假设；机器学习模型（尤其XGBoost）通过捕捉非线性交互作用展现出更优判别能力，结合SHAP可解释性部分弥补了黑箱局限。研究中采用互补策略，综合列线图的临床直观性与机器学习的预测性能。XGBoost的梯度提升架构、正则化机制及处理类别不平衡的能力使其在综合性能上优于KNN、SVM、RF和MLP。SHAP分析识别的关键预测因子可在Virchow三要素框架下进行机制解释：手术时间反映内皮损伤累积负荷（糖萼降解、组织因子暴露）；长期卧床通过抑制小腿肌泵功能导致静脉淤滞（低剪切应力下调KLF2信号，诱导促血栓表型）；恶性肿瘤病史通过肿瘤微粒、黏蛋白等机制驱动高凝状态；术后炎症标志物（NLR、CRP）通过免疫血栓形成（中性粒细胞胞外陷阱NETs）和纤溶抑制（PAI-1上调）促进血栓进展；术后D-二聚体相比术前D-二聚体具有更强预测价值，反映炎症驱动下凝血激活、纤溶反应与清除障碍的动态失衡；年龄和BMI通过内皮功能减退和慢性低度炎症放大血栓易感性；术中心动过速作为新型预测因子，整合自主神经激活、静脉淤滞、内皮功能障碍及早期免疫血栓形成的多重信号。研究者强调，尽管模型AUC优秀，但低发生率条件下绝对检出率有限，模型应定位为风险分层和预警工具，而非诊断工具。研究局限性包括回顾性设计、外部验证区域相对局限、生物标志物覆盖不全、事件数较少（48例）、SHAP分析仅具关联性、围手术期管理方案未完全标准化。

**研究结论**（翻译）：在这项多中心研究中，研究人员开发并外部验证了一个基于机器学习的术后肺栓塞预测模型。该模型在内部和外部验证队列中均表现出良好的区分度、校准度和临床实用性，提示其具有稳健的泛化能力。在评估的五种算法中，XGBoost展现出最佳的整体性能。多种互补评估方法——包括受试者工作特征分析、校准曲线绘制和决策曲线分析——均证实了该模型的稳健性和临床适用性。SHAP分析描绘了关键的预测决定因素，涵盖炎症标志物（CRP、NLR、术后D-二聚体）、手术参数（手术时间、术中心动过速）和患者基线特征（年龄、BMI、恶性肿瘤病史、长期卧床）。这些发现共同强调了术后炎症与手术应激在围手术期肺栓塞发病机制中的协同作用。

联系信箱：

粤ICP备09063491号

热点排行