极端类别不平衡下阿尔茨海默病进展的机器学习研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Neuroscience》：Machine learning for Alzheimer’s disease progression under extreme class imbalance

【字体：大中小】 时间：2026年05月25日 来源：Frontiers in Neuroscience 3.2

编辑推荐：

　　背景：及时识别阿尔茨海默病（AD）进展高风险个体仍是一项重大的临床挑战。传统的认知评估提供的预后见解有限，而许多机器学习（ML）模型依赖于昂贵的生物标志物或缺乏可解释性的算法，从而限制了其临床可扩展性。本研究评估了在极端类别不平衡条件下，广泛可得的基线人口统计

背景：及时识别阿尔茨海默病（AD）进展高风险个体仍是一项重大的临床挑战。传统的认知评估提供的预后见解有限，而许多机器学习（ML）模型依赖于昂贵的生物标志物或缺乏可解释性的算法，从而限制了其临床可扩展性。本研究评估了在极端类别不平衡条件下，广泛可得的基线人口统计学、临床和认知测量数据是否能够支持使用可解释的机器学习方法进行短期进展预测。方法：研究人员分析了来自阿尔茨海默病神经影像倡议（ADNI）的 3,240 名参与者，其中 2,423 人拥有有效的 24 个月随访数据。主要结局指标为 24 个月内严格的单向诊断恶化（13 起事件；0.5%）。研究人员利用基线人口统计学、临床和认知变量，在自然类别不平衡下，采用分层 k 折交叉验证和折外预测训练了 XGBoost 和逻辑回归模型。模型性能通过受试者工作特征曲线下面积（AUROC）、精确率 - 召回率曲线下面积（AUPRC）、校准分析和自助法置信区间进行评估。敏感性分析评估了成本敏感学习、阈值优化和替代插补策略（K 近邻 [KNN] 和链式方程多重插补 [MICE]）。此外，单独进行了纵向混合效应建模以描述认知能力下降情况，但未将其用作预测模型的输入。夏普利加法解释（SHAP）用于量化特征贡献。结果：在自然类别不平衡下，XGBoost 实现的 AUROC 为 0.912，AUPRC 为 0.051，而逻辑回归实现的 AUROC 为 0.787，AUPRC 为 0.038。尽管区分度超过了基线患病率，但精确率仍然较低，且阈值优化产生了大量的假阳性负担，限制了即时的临床适用性。成本敏感学习并未显著改善性能。MICE 插补产生的结果与中位数插补相当，而 KNN 插补降低了性能。SHAP 分析确定基线认知严重程度、功能测量和诊断状态为主要预测因子。混合效应建模证实了随时间推移存在显著的认知能力下降（β = ?0.027 分/月，p < 0.001）。结论：在极端事件稀缺的情况下，可获取的基线临床和认知变量包含可测量但有限的短期 AD 进展预测信号。这些发现应被解释为早期概念验证，而非可临床部署的决策支持工具。在临床转化之前，仍需要进行外部验证。

阿尔茨海默病（AD）作为一种进行性神经退行性疾病，其病理改变往往早于临床症状出现数年，给全球带来了巨大的健康和经济负担。早期识别高危个体对于及时干预至关重要。然而，现有的预测模型多依赖于正电子发射断层扫描（PET）或脑脊液（CSF）采样等高成本、侵入性的生物标志物，且许多机器学习模型存在“黑箱”问题，缺乏可解释性，限制了其在临床的广泛应用。此外，AD 短期进展事件在人群中发生率极低，导致数据存在严重的类别不平衡问题，这给预测模型的构建带来了巨大挑战。为了解决上述问题，研究人员开展了一项基于阿尔茨海默病神经影像倡议（ADNI）队列的研究，旨在评估仅利用广泛可得的基线人口统计学、临床和认知变量，在极端类别不平衡条件下，通过可解释的机器学习方法预测短期（24 个月）AD 临床进展的可行性。该研究发表于《Frontiers in Neuroscience》。

研究人员利用 ADNI 数据库中具有完整基线数据且拥有 24 个月内有效随访记录的 2,423 名参与者作为最终建模队列。研究采用了多种关键技术方法：首先，定义了严格的单向诊断恶化作为主要结局指标；其次，构建并比较了正则化逻辑回归和基于梯度提升决策树的 XGBoost 两种预测模型；第三，采用分层 5 折交叉验证和折外预测策略，以应对极端的数据不平衡问题（进展事件仅 13 例，占比 0.5%）；第四，应用夏普利加法解释（SHAP）技术对模型特征贡献度进行量化分析，以确保模型的可解释性；最后，通过线性混合效应模型独立描述了队列的认知衰退轨迹，并进行了包括成本敏感学习、阈值优化及多种缺失值插补策略（如 KNN 和 MICE）在内的敏感性分析，以验证结果的稳健性。

研究结果主要包含以下几个方面：
模型性能与校准：在自然类别不平衡条件下，XGBoost 模型表现出较强的排序区分能力，其受试者工作特征曲线下面积（AUROC）达到 0.912，优于逻辑回归模型的 0.787。然而，由于事件极度稀缺，两者的精确率 - 召回率曲线下面积（AUPRC）均较低（分别为 0.051 和 0.038），表明在实际应用中假阳性率较高。
阈值特性与敏感性分析：研究发现，即使经过阈值优化，模型仍会产生大量假阳性结果，限制了其直接临床部署的价值。成本敏感学习（即通过算法层面加权）并未显著提升模型性能。在缺失值处理上，MICE 插补效果与中位数插补相当，而 KNN 插补反而降低了模型性能。
特征重要性：SHAP 分析一致表明，基线认知严重程度、功能评估指标和诊断状态是预测疾病进展的最主要因素，而血浆生物标志物和多组学变量因数据覆盖不全或信号较弱，贡献有限。
纵向认知轨迹：独立的混合效应模型证实，队列整体认知功能随时间呈现显著但温和的下降趋势（每月下降约 0.027 分），个体间存在显著异质性。

讨论与结论部分总结指出，尽管 XGBoost 在区分潜在进展者方面表现出良好的排序能力，但在极端类别不平衡的现实场景下，基于基线临床和认知变量的模型其绝对预测精度仍然有限，高假阳性率是目前的主要障碍。复杂的非线性模型并未比简单的逻辑回归模型带来显著的额外收益，说明主要的预测信号来源于结构化的临床评估数据。研究人员强调，本研究结果应被视为早期概念验证，证明了可获取的基线数据中包含可测量的预测信号，但距离成为可临床部署的决策支持工具仍有差距。未来的研究需要更大的事件队列、更长的随访时间以及外部独立队列的验证，以进一步提高模型的泛化能力和临床实用性。

联系信箱：

粤ICP备09063491号

热点排行