机器学习模型预测老年急性缺血性卒中患者卒中相关性肺炎的开发与验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Neurology》：Development and validation of a machine learning model for predicting stroke-associated pneumonia in older patients with acute ischemic stroke

【字体：大中小】 时间：2026年06月10日 来源：Frontiers in Neurology 2.8

编辑推荐：

　　摘要目的：卒中相关性肺炎（SAP）是老年急性缺血性卒中（AIS）患者常见且严重的并发症。然而，高危患者的早期识别仍具有挑战性。本研究旨在开发并验证一个可解释的机器学习模型，用于预测老年AIS患者的SAP风险。方法：这项回顾性研究纳入了2018年9月

摘要
目的：卒中相关性肺炎（SAP）是老年急性缺血性卒中（AIS）患者常见且严重的并发症。然而，高危患者的早期识别仍具有挑战性。本研究旨在开发并验证一个可解释的机器学习模型，用于预测老年AIS患者的SAP风险。
方法：这项回顾性研究纳入了2018年9月1日至2023年12月31日期间连续收治于中国浙江医院的1,011例符合条件的AIS患者（年龄≥65岁）。共1,011例患者被随机分为训练集和测试集（7:3比例）。收集人口统计学、合并症、实验室检查结果和入院评估数据以评估SAP风险。采用合成少数类过采样技术（SMOTE）处理不平衡的训练数据。使用最小绝对收缩和选择算子（LASSO）回归筛选预测特征。应用八种机器学习模型，包括逻辑回归（LR）、支持向量机（SVM）、轻量梯度提升机（LightGBM）、极限梯度提升（XGBoost）、分类提升（CatBoost）、梯度提升决策树（GBDT）、多层感知器（MLP）和随机森林（RF），以确定最佳预测模型。使用Shapley加法解释（SHAP）解释最优模型。
结果：SAP发生率为18.79%。LASSO识别出12个预测特征。SVM在测试集中表现出可接受且稳定的预测性能，准确率为0.773，灵敏度为0.667，特异度为0.798，F1得分为0.524，Brier得分为0.156，AUC为0.794（95% CI: 0.748–0.839）。SHAP分析确定了影响模型预测的关键因素。研究人员开发了一个在线平台用于临床应用。
结论：本研究表明，基于SVM的可解释机器学习模型可以利用常规可用的临床和实验室数据有效预测老年AIS患者的SAP风险。SHAP分析通过阐明特征贡献进一步提高了模型的临床可解释性。研究人员的在线预测平台可作为一种有前景的工具，用于识别高危老年患者并促进SAP的早期预防性管理。

**论文解读文章**

**研究背景与问题**
卒中相关性肺炎（stroke-associated pneumonia, SAP）是老年急性缺血性卒中（acute ischemic stroke, AIS）患者常见且严重的并发症，会导致不良预后、住院时间延长和死亡率升高，给老龄化社会带来沉重经济负担。尽管已有AIS-APS、PANTHERIS和A2DS2等传统评分系统用于SAP风险预测，但这些工具仅适用于入院时单次评估，难以反映卒中后变化，且预测准确性和泛化性有限。随着机器学习（machine learning, ML）方法的发展，一些预测模型已被用于SAP，但既往研究多针对未筛选的普通人群，缺乏专门针对老年AIS患者早期识别SAP风险的研究。因此，研究人员旨在利用常规临床特征开发并验证一个可解释的机器学习模型，用于识别老年AIS患者的SAP风险。该论文发表在《Frontiers in Neurology》。

**主要技术方法**
研究人员采用单中心回顾性设计，纳入2018年9月1日至2023年12月31日期间中国浙江医院收治的1,011例符合条件的老年AIS患者（年龄≥65岁）。数据按7:3比例随机分为训练集和测试集，并进行时间验证（2018–2021年训练，2022–2023年测试）。使用合成少数类过采样技术（SMOTE）处理训练数据不平衡，通过最小绝对收缩和选择算子（LASSO）回归从32个初始变量中筛选出12个预测特征。构建并比较了八种机器学习模型：逻辑回归（logistic regression, LR）、支持向量机（support vector machine, SVM）、轻量梯度提升机（LightGBM）、极限梯度提升（XGBoost）、分类提升（CatBoost）、梯度提升决策树（GBDT）、多层感知器（MLP）和随机森林（random forest, RF）。采用网格搜索进行超参数优化，使用SHapley加法解释（SHAP）方法解释最优模型，并开发了在线预测平台。

**研究结果**

**3.1 患者特征**
研究纳入1,011例老年AIS患者，中位年龄76岁（四分位距70–83岁），男性占67.6%。SAP发生率为18.79%（n=190）。SAP组与非SAP组在多种合并症、实验室检查和入院评估指标上存在显著差异（p<0.05），而人口学特征（性别、吸烟、饮酒）无显著差异。

**3.2 模型性能与验证**
通过LASSO回归从32个变量中筛选出12个预测特征：mRS评分（modified Rankin Scale，改良Rankin量表）、NIHSS评分（National Institutes of Health Stroke Scale，美国国立卫生研究院卒中量表）、VTE风险评分（venous thromboembolism，静脉血栓栓塞症）、血尿素氮（blood urea nitrogen, BUN）、血清白蛋白、年龄、总胆固醇、Wada饮水试验评分、中性粒细胞与淋巴细胞比值（neutrophil-to-lymphocyte ratio, NLR）、C反应蛋白（C-reactive protein, CRP）、红细胞分布宽度（red cell distribution width, RDW）和总胆红素。八种机器学习模型中，SVM表现出最稳定和鲁棒的预测性能，测试集AUC为0.794（95% CI: 0.748–0.839），准确率0.773，灵敏度0.667，特异度0.798，F1得分0.524，Brier得分0.158（95% CI: 0.136–0.180）。时间验证中SVM的AUC为0.789（95% CI: 0.714–0.856），Brier得分为0.121，表明预测性能随时间一致。与其他模型相比，SVM的过拟合程度最小（训练-测试AUC差值0.044）。

**3.3 模型可解释性**
SHAP分析揭示了12个特征对预测的贡献方向：mRS评分、CRP、NLR、NIHSS评分、年龄、总胆红素、Wada饮水试验评分、BUN、VTE风险评分和RDW对SAP风险呈正向贡献，而血清白蛋白和总胆固醇呈负向贡献。特征重要性排序中，mRS评分是最重要的预测因子。

**3.4 临床应用**
研究人员基于Streamlit开发了在线预测平台，并将源代码上传至GitHub。用户可通过在网页输入临床特征数据直接获取SAP风险预测结果。

**讨论与结论**
讨论部分指出，本研究的SVM模型AUC为0.794，F1得分0.524，精度0.432，提示约57%的阳性预测为假阳性，因此该模型应作为筛查工具而非立即启动抗生素治疗的依据。与其他模型相比，SVM在训练集和测试集间表现稳定，校准曲线显示良好校准性（Brier得分0.158），决策曲线分析表明在临床相关阈值范围内提供净获益。研究还发现，高mRS评分通过卒中诱导免疫抑制、吞咽困难和年龄相关的吞咽储备下降等机制增加SAP风险；NIHSS评分、年龄、CRP、NLR、BUN、VTE风险评分、RDW和总胆红素为正向预测因素，而血清白蛋白和总胆固醇为保护因素。局限性包括单中心设计、缺乏外部验证、未纳入其他研究中识别的生物标志物以及护理过程变量（如吞咽筛查方案）等。

**结论翻译**
在本研究中，研究人员证明，通过结合临床和实验室常规可用的数据，可以构建有效的机器学习模型来预测老年AIS患者的SAP风险。结果表明，在八种机器学习算法中，SVM模型显示出最佳和最稳定的预测性能。SHAP分析通过阐明特征贡献进一步提高了模型的临床可解释性。mRS评分、NIHSS评分、CRP水平、NLR、BUN水平、Wada饮水试验评分、VTE风险评分、RDW、总胆红素和年龄被确定为老年AIS患者SAP的预测因素，而血清白蛋白和总胆固醇降低SAP风险。这种基于SVM的可解释机器学习模型和在线预测平台可以促进老年AIS患者SAP风险的早期识别。早期识别高危患者有助于临床医生实施针对性的预防措施，可能降低SAP发生率并改善患者预后。

联系信箱：

粤ICP备09063491号

热点排行