《Frontiers in Neuroscience》:Predicting early neurological deterioration in acute branch atheromatous disease without reperfusion therapy: a machine learning model
编辑推荐:
背景:急性分支动脉粥样硬化病(branch atheromatous disease, BAD)是亚洲人群缺血性卒中重要病因,早期神经功能恶化(early neurological deterioration, END)常见。本研究旨在建立机器学习模型预测未接
背景:急性分支动脉粥样硬化病(branch atheromatous disease, BAD)是亚洲人群缺血性卒中重要病因,早期神经功能恶化(early neurological deterioration, END)常见。本研究旨在建立机器学习模型预测未接受再灌注治疗急性BAD患者的END风险。
方法:回顾性纳入未行再灌注治疗的急性BAD患者。研究人员通过LASSO回归结合自助法稳定性评估筛选核心预测特征,采用七种机器学习算法建模,依据验证性能、嵌套交叉验证及1000次迭代自助验证选择XGBoost(eXtreme Gradient Boosting)模型;以样条逻辑回归作为非线性基线模型;采用SHAP(SHapley Additive exPlanations)分析解释模型并制定简易评分系统;以受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUC)评估区分度,决策曲线分析(decision curve analysis, DCA)评估临床效用。
结果:共纳入369例患者,LASSO回归筛选出5个关键变量:梗死最大面积(maximum infarct area)、乳酸脱氢酶(lactate dehydrogenase, LDH)、梗死切片层数(number of infarct slices)、入院收缩压(admission systolic blood pressure, SBP)及中性粒细胞计数(neutrophil count)。XGBoost模型综合性能最优,训练集AUC=0.927,验证集AUC=0.846;嵌套交叉验证得无偏AUC=0.866(95%CI:0.817–0.925),自助验证平均袋外(out-of-bag, OOB)AUC=0.855(95%CI:0.760–0.941)。评分系统将患者分为低危(0–6分)、中危(7–13分)、高危(14–20分)。DCA显示良好临床效用;SHAP分析表明梗死最大面积与LDH为END前两位预测因子。
结论:整合梗死最大面积、LDH、梗死切片层数、入院SBP及中性粒细胞计数的XGBoost预测模型及简易评分系统,可为未接受再灌注治疗的急性BAD患者提供可靠的END风险预测。
本研究发表于《Frontiers in Neuroscience》。
研究背景与意义:
急性分支动脉粥样硬化病(branch atheromatous disease, BAD)是亚洲人群缺血性卒中的重要亚型,约占急性缺血性卒中的9.1%–18.3%,出院致残率高达52.6%。BAD患者急性期常发生早期神经功能恶化(early neurological deterioration, END),定义为入院7天内NIHSS总分增加≥2分或运动项增加≥1分,END发生率达17%–75%,且显著恶化3个月功能预后。目前研究表明强化抗栓治疗(如阿加曲班联合双抗、西洛他唑联合抗血小板等)可降低END发生,但因强化治疗存在出血风险,需识别高危人群以实现个体化精准干预。既往END预测模型存在两大局限:一是研究人群混杂,多未排除接受静脉溶栓或血管内治疗的病例,而再灌注治疗本身改变END病理生理及风险谱,使模型不适用于单纯药物保守治疗的BAD人群;二是多采用传统线性模型(如逻辑回归),难以捕捉临床特征与END间复杂的非线性关系及交互作用。因此,研究人员首次针对未接受再灌注治疗的急性BAD患者,构建基于机器学习的END风险预测模型,并结合SHAP(SHapley Additive exPlanations)可解释性分析转化为临床可用的简易评分系统,以辅助床旁个体化抗栓强度决策。
主要关键技术方法:
研究人员回顾性收集2022年1月至2025年8月安庆市第一人民医院收治的发病48小时内入院、完成MRI确诊急性BAD且未接受静脉溶栓/介入/手术再灌注治疗的患者,排除颅内出血、责任动脉狭窄≥50%及临床资料不全者,最终纳入369例(END组66例,非END组303例),按7∶3分层随机分为训练集(n=260)与验证集(n=109)。缺失率<5%的核心变量采用完整病例分析。训练集连续变量经Min-Max归一化,通过LASSO(Least Absolute Shrinkage and Selection Operator)回归结合10折交叉验证及1000次自助法(bootstrap)稳定性评估筛选变量,最终保留5个核心预测因子。基于筛选变量构建并比较7种机器学习模型——逻辑回归、决策树、随机森林(Random Forest, RF)、极端梯度提升(eXtreme Gradient Boosting, XGBoost)、轻量梯度提升机(Light Gradient Boosting Machine, LightGBM)、支持向量机(Support Vector Machine, SVM)及人工神经网络(Artificial Neural Network, ANN),以网格搜索结合5折交叉验证调参;同时拟合带限制性三次样条的逻辑回归作为非线性基线。采用5×4嵌套交叉验证及1000次OOB自助验证评估模型稳健性;以AUC、校准曲线、Brier分数及DCA评价性能;最优XGBoost模型用SHAP框架进行事后解释,依据SHAP贡献值将模型转化为0–20分简易评分系统并划分低、中、高危三层。
研究结果:
结果(Patient selection及基线特征):研究人员从连续就诊患者中按标准筛选,最终369例入组(训练集260例,验证集109例),两组及各亚组间基线临床、实验室及影像学特征均衡可比(均P>0.05),END发生率分别为18.1%与17.4%(P>0.99)。
结果(LASSO变量筛选与稳定性):在训练集上行LASSO回归(λ1se=0.061),最终保留5个非零系数变量:梗死最大面积、LDH、梗死切片层数、入院SBP及中性粒细胞计数。1000次自助重抽样显示上述变量入选频率分别为100%、100%、99.6%、99.0%、95.5%;多因素逻辑回归证实五者均为END独立影响因素(均P<0.05),OR分别为梗死最大面积1.02(95%CI:1.01–1.03)、LDH 1.03(95%CI:1.01–1.04)、梗死切片层数2.09(95%CI:1.28–3.55)、入院SBP 1.03(95%CI:1.01–1.05)、中性粒细胞计数1.29(95%CI:1.03–1.67)。
结果(模型性能比较):七种算法在验证集中的XGBoost表现最优——AUC=0.846(95%CI:0.718–0.953),准确度=0.890,灵敏度=0.737,特异度=0.922,精确度=0.667,F1分数=0.700,Brier分数=0.090(95%CI:0.054–0.130);校准曲线示预测-观察吻合良好;DCA显示阈值概率0.04–0.76范围内XGBoost净获益高于"全部治疗"与"不治疗"策略。以约登指数确定最佳概率截断值为0.236。嵌套交叉验证无偏AUC=0.866(95%CI:0.817–0.925),1000次bootstrap OOB平均AUC=0.855(95%CI:0.760–0.941),训练集与验证集AUC差仅0.081,证实模型鲁棒性。XGBoost优于限制性三次样条逻辑回归基线(AUC 0.807,灵敏度0.474)。
结果(SHAP解释分析):SHAP柱状图显示各变量平均|SHAP|值:梗死最大面积0.07、LDH 0.06、入院SBP 0.04、梗死切片层数0.04、中性粒细胞计数0.02,前两者为最重要预测因子。蜂群图示梗死最大面积越大、LDH越高、梗死切片层数越多,SHAP值正向偏移(END风险升高);依赖图揭示非线性阈值效应——LDH<约180 U/L时影响微弱,>约200 U/L后风险贡献陡增;入院SBP在130–140 mmHg时风险最低,>140 mmHg后上升,165–190 mmHg升幅放缓,>190 mmHg再加速;梗死切片层数在≥3层时SHAP值由负转正(风险跃升);梗死最大面积呈稳定正向关系;中性粒细胞计数呈S形弱效应,约>4.0×109/L时由保护性转为风险增加。
结果(评分系统构建与验证):依据SHAP贡献比例及SHAP依赖图拐点结合单变量ROC约登指数设定切点并取整,各变量赋分——梗死最大面积≥100 mm2记7分,LDH≥185 U/L记5分,梗死切片层数≥3记3分,入院SBP≥155 mmHg记3分,中性粒细胞计数≥4.0×109/L记2分,总分0–20分。低危(0–6分)END发生率4.17%,中危(7–13分)12.77%,高危(14–20分)78.57%。评分系统在验证集AUC=0.831,接近XGBoost模型(0.846)。
讨论部分总结:
研究人员指出,本研究聚焦未接受再灌注治疗的急性BAD患者,排除再灌注治疗对END的混杂影响,填补了该特定亚群专用预测工具的空白。影像标志物(梗死最大面积、切片层数≥3)反映缺血范围及微循环障碍程度,与进展性水肿及END关联;LDH作为细胞损伤敏感指标,缺血缺氧致神经元膜破坏释放入血,>约200 U/L后END风险贡献明显加速,为潜在临床预警阈值;入院SBP与END呈非线性关系,过高血压影响灌注并促进恶化;中性粒细胞作为炎症介质,通过IL-1α/TNF通路及中性粒细胞胞外诱捕网(neutrophil extracellular traps, NETs)加重血脑屏障破坏与水肿。复合炎症指数(MLR、SIRI等)无显著预测价值而未纳入。LASSO降维配合XGBoost有效捕捉非线性关系,嵌套交叉验证及bootstrap内部验证支持稳健性;SHAP分析克服"黑箱"缺陷,实现个体化解释;转化所得评分系统便于床旁快速风险分层——低危常规监测,中危密切监测+强化抗栓,高危密切监测+积极强化抗栓(如加用阿加曲班),使模型具备临床可操作性。局限性包包括单中心回顾设计仅行内部验证、仅用入院静态指标未纳入动态变化、部分潜在生物标志物(如血清神经丝轻链、高敏C反应蛋白)未测、特征选择未在交叉验证每折内重复、模型应作为临床辅助而非替代医师判断,后续拟开展多中心前瞻性队列验证并纳入动态监测指标。
结论(翻译):
综上,研究人员建立了整合梗死最大面积、乳酸脱氢酶(LDH)、梗死切片层数、入院收缩压(SBP)及中性粒细胞计数的XGBoost预测模型及简易评分系统。SHAP分析阐释了各变量对END风险的贡献及其非线性关系。该模型可预测未接受再灌注治疗的急性分支动脉粥样硬化病(BAD)患者的END风险,协助神经内科医师在床旁制定个体化抗栓决策。