《Frontiers in Aging Neuroscience》:Development and external validation of a machine learning-based model for identifying advanced Parkinson’s disease
编辑推荐:
背景:识别处于晚期阶段的帕金森病(Parkinson’s disease,PD)患者对于及时实施治疗干预至关重要,然而当前工具主要依赖主观性临床量表或高成本生物标志物。研究人员旨在开发并验证一种基于机器学习算法筛选的常规血液生物标志物预测模型。
方法:研究人
背景:识别处于晚期阶段的帕金森病(Parkinson’s disease,PD)患者对于及时实施治疗干预至关重要,然而当前工具主要依赖主观性临床量表或高成本生物标志物。研究人员旨在开发并验证一种基于机器学习算法筛选的常规血液生物标志物预测模型。
方法:研究人员回顾性分析了发现队列中536例PD患者及独立外部验证队列中80例患者的数据。依据Hoehn and Yahr(H&Y)分期量表,将患者分为早期或晚期。采用最小绝对收缩与选择算子回归(LASSO)和随机森林(Random Forest,RF)算法,从人口学变量和常规血液变量中筛选预测因子。将筛选出的特征纳入多变量Logistic回归模型,以构建预测模型。模型性能采用曲线下面积(AUC)、校准曲线和决策曲线分析(Decision Curve Analysis,DCA)进行评估。
结果:基于LASSO和RF算法,共鉴定出6项生物标志物作为独立预测因子,包括总胆红素(total bilirubin,TB)、间接胆红素(indirect bilirubin,IBIL)、白蛋白(albumin,ALB)、胆碱酯酶(cholinesterase,ChE)、乳酸脱氢酶(lactate dehydrogenase,LDH)和肌酸激酶(creatine kinase,CK)。该预测模型在发现队列中表现出优异的区分能力(AUC = 0.873),并在外部验证队列中维持了稳健性能(AUC = 0.736)。校准曲线显示预测概率与观察结局之间具有良好一致性。DCA证实,该模型在较宽阈值概率范围内具有临床净获益。值得注意的是,与早期患者相比,晚期患者TB、IBIL、ALB和ChE水平均显著升高,而LDH水平较低。
结论:研究建立了一种可靠、无创且经济高效的预测模型,可利用6项血液生物标志物识别晚期PD。
该文发表于《Frontiers in Aging Neuroscience》,聚焦于晚期帕金森病(Parkinson’s disease,PD)识别这一具有明确临床转化价值的问题。PD是全球第二常见的神经退行性疾病,其核心病理特征为多巴胺能神经元进行性丢失以及α-突触核蛋白(α-synuclein)异常聚集。疾病进入晚期后,患者往往出现更严重的运动并发症、非运动症状及生活质量显著下降,同时也意味着照护负担与医疗资源消耗明显增加,并可能需要脑深部电刺激(deep brain stimulation,DBS)等更复杂干预。因此,如何尽早、准确、便捷地识别晚期PD患者,是优化治疗时机、制定个体化管理策略的重要前提。
现阶段PD分期主要依赖运动障碍协会统一帕金森病评定量表(Movement Disorder Society-Unified Parkinson’s Disease Rating Scale,MDS-UPDRS)及Hoehn and Yahr(H&Y)分期系统。但这些方法本质上仍属于临床量表评估,存在主观性、评价者间差异以及对早期病程变化敏感度有限等问题。虽然脑脊液标志物和高级神经影像学在PD评估中显示出潜力,但其成本高、侵入性强或可及性不足,不利于基层和常规医疗场景广泛应用。基于此,开发一种依托常规临床检测、无创且经济的分期识别工具,具有明显现实意义。研究人员将目光投向常规血液生化指标,因为这些指标来源稳定、费用较低、临床普及度高,并且可能反映PD相关的氧化应激、线粒体功能障碍和慢性炎症等系统性改变。
为解决以往研究多聚焦单一标志物、缺乏多变量整合与外部验证的问题,研究人员纳入2022年2月至2024年12月两家医学中心共616例符合2015年运动障碍协会PD诊断标准的患者,构建发现队列与独立外部验证队列。研究以H&Y分期为依据,将H&Y 0–2.5期定义为早期,H&Y ≥ 3定义为晚期。在此基础上,研究人员借助机器学习方法从常规临床和血液指标中筛选与晚期PD相关的稳健特征,并进一步构建可解释的多变量Logistic回归模型及列线图(nomogram),用于晚期PD风险识别。最终,研究建立了一个由6项常规血液生物标志物组成的预测模型,证明其在发现队列和外部验证队列中均具有较好的判别能力、校准度和临床净获益。
研究采用的关键技术方法主要包括:基于广西医科大学第一附属医院536例PD患者构建发现队列,并以广西医科大学附属民族医院80例PD患者作为独立外部验证队列;对缺失率不超过20%的变量采用链式方程多重插补(multiple imputation by chained equations,MICE);对连续变量进行Z评分标准化;采用LASSO回归与随机森林(RF)双机器学习策略筛选共同特征;将重叠变量纳入多变量Logistic回归确定独立预测因子;通过受试者工作特征(ROC)曲线、AUC、校准曲线、Brier评分、Hosmer-Lemeshow拟合优度检验及DCA综合评估模型性能,并构建列线图实现临床应用。
以下为论文结果部分的凝练解读,并保留原文小标题。
Participant characteristics
研究首先描述了总体样本特征及不同分期患者的基线差异。发现队列共纳入536例PD患者,平均年龄为67.5 ± 10.8岁,其中男性316例。按H&Y分期分层后,早期167例,晚期369例。比较显示,晚期患者年龄显著更大。实验室指标方面,晚期组总胆红素(TB)、间接胆红素(IBIL)、直接胆红素(DBIL)、白蛋白(ALB)、胆碱酯酶(ChE)、前白蛋白(PA)、中性粒细胞计数(NEU)、总蛋白(TP)及白蛋白/球蛋白比值(A/G ratio)更高;而红细胞计数(RBC)、血红蛋白(HB)、淋巴细胞计数、球蛋白(GLB)、乳酸脱氢酶(LDH)、α-羟丁酸脱氢酶(α-HBD)及碱性磷酸酶(ALP)更低。性别、吸烟、饮酒、高血压及糖尿病等变量在两组间未见显著差异。该部分结果说明,晚期PD不仅与年龄增加有关,也伴随多项外周血生化和血液学指标的系统性改变。
Screen of variables key to the PD stage by machine learning methods
在特征筛选阶段,研究人员分别应用随机森林和LASSO模型识别与PD分期最相关的变量。两种模型对PD分期均显示出较高预测价值,随机森林模型AUC为0.884,LASSO模型AUC为0.877。进一步比较两种算法筛选出的前10个重要变量后,研究人员获得6个重叠指标:TB、LDH、CK、IBIL、ALB和ChE。该结果提示,这6项指标在不同算法框架下均表现为稳定特征,具有较高鲁棒性。值得注意的是,CK虽然在单因素比较中未显示统计学差异,但仍被机器学习方法识别为关键变量,提示其与PD分期之间可能存在传统线性统计不易捕捉的复杂关系。该部分结果构成后续建模的核心基础。
Establishment of predictive model for the PD stage
基于上述6项筛选指标,研究人员采用多变量Logistic回归建立PD分期预测模型。经10折交叉验证后,该模型在发现队列中的平均AUC达到0.873,提示具有良好的分辨早期与晚期PD的能力。模型的敏感度为0.868,特异度为0.667,阳性预测值(positive predictive value,PPV)为0.919,阴性预测值(negative predictive value,NPV)为0.541。结合这些性能指标可见,该模型在识别晚期PD方面具有较强能力,尤其在阳性预测方面表现较好,适合用于临床筛查和风险分层场景。
Nomogram construction and evaluation
在建立Logistic回归模型后,研究人员进一步将6个独立预测因子构建为列线图,以便临床可视化应用。根据多变量分析结果,TB、IBIL、ALB、ChE与晚期PD呈正向关联,而LDH呈负向关联;CK虽被纳入最终模型,但其在多变量回归中的P值未达到统计学显著。列线图中各指标按回归系数大小赋分,总分对应个体处于晚期PD的预测概率。该列线图的bootstrap校正一致性指数(C-index)为0.880,提示其区分度优良。校准分析显示模型预测概率与实际观察结果之间一致性较好,Brier评分较低,Hosmer-Lemeshow检验结果支持模型拟合充分。DCA显示该模型在较宽阈值概率范围内均可带来正向临床净获益,说明其不仅统计学性能良好,也具有一定临床应用价值。
Validation of the predictive model in an external cohort
为检验模型的泛化能力,研究人员在另一中心的80例PD患者中进行了独立外部验证,其中早期与晚期各40例。验证时直接应用发现队列形成的最终Logistic回归系数而不重新拟合。结果显示,外部验证队列中TB、IBIL、ALB和ChE在晚期患者中仍显著升高,LDH显著降低,而CK仍未表现出统计学差异。这与发现队列中的主要方向基本一致,说明模型核心标志物具有较好的跨队列稳定性。综合6项指标后,模型在外部队列中的AUC为0.736,敏感度为0.775,特异度为0.625,PPV为0.737,NPV为0.674。校准曲线、较低Brier评分及Hosmer-Lemeshow检验结果均提示模型在外部队列中保持了较好的校准性能。该结果表明,此模型具有一定可迁移性和外部适用性。
讨论部分总结
讨论部分围绕模型构建价值、生物学意义、方法学优势与局限性展开。研究人员指出,本研究成功建立并验证了一种整合TB、IBIL、ALB、ChE、LDH和CK的晚期PD列线图模型。其创新点在于将LASSO与随机森林结合,用于从常规血液生物标志物中筛选稳健特征,再通过多变量Logistic回归生成具可解释性的预测工具,从而在准确性和临床可实施性之间取得平衡。
在生物学解释层面,研究结果强调了氧化应激与线粒体功能障碍在PD进展中的重要性。胆红素传统上被视为代谢废物,但近年来被认为具有内源性抗氧化作用。晚期患者TB和IBIL水平升高,提示随着疾病进展、氧化应激增强,血红素代谢相关补偿性变化可能更加明显。LDH在晚期患者中下降,则提示糖酵解代谢受损及线粒体复合体Ⅰ功能异常可能与晚期神经元退变相关。与此同时,ALB和ChE的变化反映出营养状态、系统炎症反应及胆碱能功能改变可能参与疾病晚期表型形成。CK虽在单因素分析中不显著,但被机器学习筛中,提示肌肉代谢状态与疾病严重程度之间可能存在非线性联系。
在方法学层面,本研究优势包括:采用双机器学习策略进行特征筛选,降低过拟合风险;设置独立外部验证队列,增强模型稳定性证据;全部指标均来自常规血液检测,有助于在资源有限环境中推广使用。研究人员同时明确指出若干局限:研究为回顾性设计,存在选择偏倚风险;未纳入饮食、药物剂量及遗传背景等潜在混杂因素;样本量仍属中等;H&Y分期本身具有主观性,因此模型识别的是与临床分期相关的替代性外周血特征,而非独立的生物学分期系统;外部验证队列为早晚期1:1平衡构成,不能完全代表真实临床患病分布,因此结果需谨慎解读。
研究结论部分翻译:
本研究建立了一种可靠、无创且经济高效的列线图模型,该模型基于6项常规血液生物标志物用于识别晚期帕金森病。未来若进一步整合遗传学和影像学数据,有望进一步提升该预测模型的精确性。