CogStrat：用于预测认知正常老年人事件性认知障碍的基于网络的工具

《Journal of Neural Transmission》：CogStrat: web-based tools for predicting incident cognitive impairment in cognitively normal older adults

【字体：大中小】 时间：2026年05月28日 来源：Journal of Neural Transmission 4

编辑推荐：

　　研究人员开发并评估了基于临床数据，并可选地纳入生物标志物输入的Cox比例风险（Proportional Hazards, PH）模型，并将这些模型转化为基于网络的应用程序，旨在预测认知正常老年人的事件性认知障碍。数据来源于阿尔茨海默病神经影像计划（Alzhei

研究人员开发并评估了基于临床数据，并可选地纳入生物标志物输入的Cox比例风险（Proportional Hazards, PH）模型，并将这些模型转化为基于网络的应用程序，旨在预测认知正常老年人的事件性认知障碍。数据来源于阿尔茨海默病神经影像计划（Alzheimer’s Disease Neuroimaging Initiative, ADNI）中认知未受损的参与者。模型纳入了人口统计学和神经心理学变量，并可选地包含遗传学、神经影像学以及体液（血浆和脑脊液，CSF）生物标志物。模型性能通过一致性指数（C-index）、校准斜率（calibration slope）和决策曲线分析（Decision Curve Analysis, DCA）进行评估，并通过自助抽样法（bootstrap resampling）进行内部验证。关键模型在哈佛衰老脑研究（Harvard Aging Brain Study, HABS）中进行了外部验证。ADNI样本包含729名参与者（中位年龄73岁；45%为男性）。一个包含年龄、教育程度、蒙特利尔认知评估（Montreal Cognitive Assessment, MoCA）和延迟词语回忆的临床模型显示出可接受的区分度（C-index 0.721；置信区间[CI] 0.672–0.772）和良好的校准（斜率0.940）。添加生物标志物提升了模型性能，其中包含氟脱氧葡萄糖（fluorodeoxyglucose, FDG）和氟贝他匹（florbetapir）PET摄取的模型显示出最高的区分度（C-index 0.805；CI 0.759–0.886）。区分度在内部和外部验证后保持稳定，但大多数血浆生物标志物的校准较弱。研究人员开发了五个网络应用程序（CogStrat），分别使用单独的临床数据，或结合海马体积、CSF tau/淀粉样蛋白β42（Aβ42）、血浆神经丝轻链（neurofilament light chain, NfL），或FDG和氟贝他匹PET数据。这些工具提供个体化的风险分组、5年风险估计和10年累积发病率曲线。CogStrat将预后模型转化为免费、可访问的交互式工具，支持对认知正常老年人的认知障碍进行风险分层。

痴呆症是全球最紧迫的公共卫生挑战之一，也是世界卫生组织（World Health Organization, WHO）的优先事项。超过5000万人在2020年患有痴呆，其患病率预计每20年几乎翻一番。轻度认知障碍（Mild Cognitive Impairment, MCI）在65岁以上人群中更为普遍，影响6-25%的个体。阿尔茨海默病（Alzheimer’s Disease, AD）在发达国家约占痴呆病例的三分之二。历史上，痴呆症的诊断方法在很大程度上是被动的。近年来针对淀粉样蛋白病理学的疾病修饰疗法的发展和监管批准，特别是抗淀粉样蛋白单克隆抗体（如lecanemab和donanemab）的临床试验证明了其在早期AD中减少淀粉样蛋白负担、减缓认知和功能衰退的能力，标志着向生物学靶向治疗的转变。由于这些疗法在疾病最早期阶段最有效，因此对支持早期识别认知衰退高风险个体并促进及时临床决策的方法的需求日益增长。

大量因素已被用于AD和认知障碍的早期检测或预测。虽然脑脊液（Cerebrospinal Fluid, CSF）生物标志物和先进的神经影像技术提供了有价值的信息，但其应用常因成本、可及性和侵入性而受限。血液生物标志物是一个有前景的替代方案，但其常规应用也可能受到可用性、标准化和解释等问题的限制。尽管已有研究开发了整合多种信息来源的多变量模型来估计认知未受损个体的认知障碍风险，但这些模型的区分度通常仅为中等，这反映了认知障碍的复杂性和异质性。在此背景下，将个体划分为具有临床意义的风险组可能比试图进行高度精确的绝对风险预测更为稳健。Cox PH模型通过估计随时间变化的相对事件率，非常适合实现这一目的，可用于跨随访期的临床风险分层，并允许灵活纳入预测因子。

尽管已有进展，但仍存在一些重要差距，限制了现有预测模型的临床适用性。许多研究主要关注区分度，而对校准性的系统评估较少，但校准性对于准确估计个体患者的风险至关重要。外部验证的实施不一致，引发了关于跨人群和场景泛化性的担忧。此外，大多数模型尚未作为可在临床诊疗点（point of care）提供个体化风险估计的可访问工具来实施。现有方法通常依赖于固定的预测因子集合，无法提供能适应不同数据可用性水平的灵活框架。

在之前识别认知正常老年人中与认知衰退风险增加相关的认知表现特征的研究基础上，研究人员使用来自ADNI（https://adni.loni.usc.edu）的数据，开发并内部验证了一组用于预测事件性认知障碍的Cox PH模型。这些模型纳入了人口统计学和神经心理学变量，并可选择性纳入结构神经影像和体液（血浆和CSF）生物标志物。关键模型在哈佛衰老脑研究（Harvard Aging Brain Study, HABS; https://habs.mgh.harvard.edu）中进行了外部验证。为促进向临床和研究实践的转化，五个模型被实现为基于网络的应用程序（CogStrat），以实现诊疗点的个体化风险估计和风险分层。

研究的主要样本来自ADNI。研究纳入了在ADNI-1、ADNI-GO、ADNI-2和ADNI-3队列中基线时认知未受损且至少有一次随访访视的参与者。此外，新型血浆生物标志物数据来自ADNI-4。HABS用于对使用ADNI数据集拟合的模型进行外部验证。研究遵循《赫尔辛基宣言》并获得纳瓦拉大学研究伦理委员会批准。

基线时分析的变量包括人口统计数据（年龄、性别、教育年限）、心血管风险、神经心理学变量（简易精神状态检查[Mini-Mental State Examination, MMSE]、MoCA、ADAS-Cog延迟词语回忆、类别流畅性、连线测试A和B部分[Trail Making Test parts A and B, TMT-A和TMT-B]、老年抑郁量表[Geriatric Depression Scale, GDS]）、遗传变量（APOE ε4携带者状态[APOE4]和Desikan多基因风险评分[Polygenic Hazard Score, PHS]）、血浆生物标志物（苏氨酸217磷酸化tau蛋白[p-tau217]、淀粉样蛋白β1-42/Aβ1-40 [Aβ42/Aβ40]、p-tau217/Aβ42和神经丝轻链[NfL]）、CSF生物标志物（Aβ42、苏氨酸181磷酸化tau蛋白[p-tau181]、总tau蛋白[t-tau]、p-tau181/Aβ42和t-tau/Aβ42）、神经影像变量（通过MRI估计的双侧海马体积、使用[18F]氟脱氧葡萄糖[F-18 FDG] PET评估的脑代谢区域（meta-ROI）摄取值，以及使用氟贝他匹PET评估的脑内淀粉样蛋白沉积平均皮质摄取值）。除性别、心血管风险和APOE ε4携带状态作为二元变量评估外，所有预测因子均编码为连续变量。关注的结果事件是事件性认知障碍，定义为从正常认知进展为MCI或痴呆。

研究人员开发和评估多变量Cox PH模型遵循与TRIPOD+AI声明一致的策略：1. 基于学科知识，所有模型均包含年龄和教育年限。2. 使用弹性网络回归（elastic net regression）从人口统计学和神经心理学变量中选择临床模型。3. 通过比较包含每种生物标志物的模型与在同一数据集上拟合的临床模型，评估生物标志物的增量价值。模型比较通过似然比检验（Likelihood Ratio Test, LRT）和净重分类改善指数（Net Reclassification Index, NRI）进行。4. 最终模型选择考虑了区分度、校准度、样本量和事件数、可及性以及内部和外部验证结果。

模型区分度通过一致性指数（concordance index, C-index）评估，该指数量化了模型根据认知障碍风险正确对个体进行排序的能力。模型校准度通过校准曲线的斜率评估，该斜率反映了预测风险与观测风险之间的一致性。内部验证通过自助抽样法（B=1000）进行，以校正潜在的过拟合，并使用乐观校正C-index总结模型性能。外部验证通过在HABS队列中计算C-index进行。由于HABS缺乏MoCA分数，研究人员通过MMSE分数对其进行估算。基于预测因子的可用性，能够对外部验证包含临床数据、APOE4、海马体积和FDG-PET的模型，但无法验证包含体液生物标志物或氟贝他匹-PET的模型。研究人员构建了Kaplan-Meier曲线以可视化由Cox模型定义的不同风险组认知障碍的累积发生率。风险组通过计算个体线性预测值并将参与者分为对应于低、中、高风险组的三分位数来定义。为了从临床角度进一步评估模型性能，研究人员在5年时进行了决策曲线分析（DCA）。

基于所选模型，研究人员开发了五个网络应用程序（CogStrat）。用户输入预测因子值，即可获得风险分类、带有95%置信区间（CI）的5年风险估计以及当前病例和平均病例（具有预测因子中位数值）的10年累积发生率曲线。当教育校正后的MoCA分数低于24分时，系统会显示警告，提示可能存在当前认知障碍。

统计分析使用R软件（版本4.2.2）及相关软件包完成。

研究样本确定了729名来自ADNI队列且基线时认知功能正常的参与者，其中244人（33%）有认知主诉，485人（67%）无认知主诉。参与者的中位年龄为73岁，45%为男性，中位教育年限为16年。基线认知表现总体较高，中位MMSE评分为29分。在这些个体中，146人（20%）在中位随访时间1469天内发生了认知障碍。大多数事件对应于进展为MCI（n=140），仅少数参与者直接进展为痴呆（n=6）。模型在ADNI样本的不同子集上拟合，具体取决于数据可用性。由于生物标志物测量存在大量缺失，训练数据集大小从临床模型的613名参与者到PET模型的181名参与者不等，因此未进行多重插补。外部验证在HABS队列（n=287）中进行，该队列由认知未受损的老年人组成，中位年龄78岁，41%为男性，中位教育年限16年。在随访期间，23名参与者（8%）发生了认知障碍。HABS参与者的年龄略大于ADNI样本参与者（中位年龄78岁 vs 73岁），但整体认知功能、教育年限和性别分布相似。

单变量Cox PH模型显示，事件性认知障碍与年龄较大、MoCA分数较低、延迟词语回忆表现较差以及完成TMT-B时间较长存在强关联（风险比[Hazard Ratio, HR] 1.58–2.01）。遗传风险因素显示出中等效应（HR 1.35–1.47）。在体液生物标志物中，血浆NfL和p-tau217是最强的血浆预测因子（HR分别为1.38和1.35），而CSF tau/Aβ42和p-tau/Aβ42表现出最大的总体效应（HR 1.75–1.77）。神经影像标志物，包括海马萎缩、FDG-PET低代谢和氟贝他匹-PET显示的淀粉样蛋白负担增加，也与风险稳健相关（HR 1.54–1.74）。

根据预定策略，研究人员首先使用弹性网络回归得到了一个临床模型，包含年龄、教育年限、MoCA和延迟词语回忆。Schoenfeld残差检验显示，由于延迟词语回忆变量，该模型违反了PH假设（p=0.014）。通过将该变量应用于具有四个结（knots）的限制性立方样条（restricted cubic spline）解决了此问题。接着，研究人员通过纳入额外的预测因子开发了一系列Cox模型。临床模型显示出可接受的区分度（表观C-index 0.721；乐观校正C-index 0.711）和优异的校准（斜率0.940）。添加APOE4未改变相对于临床模型的区分度。纳入PHS与区分度的适度增加（delta C-index 0.019）和模型拟合改善相关，而重分类指数没有显著变化。包括p-tau217、Aβ42/Aβ40或p-tau217/Aβ42的血浆生物标志物模型相较于临床模型显示出微小或没有区分度改善，并且校准度差。血浆NfL是表现最佳的血浆生物标志物，带来区分度的适度改善（delta C-index 0.012），显著增强了模型拟合，同时保持可接受的校准。包含CSF Aβ42、tau/Aβ42和p-tau181/Aβ42的模型与区分度的更大增益（delta C-index 0.039–0.045）、模型拟合和重分类的显著改善以及可接受的校准相关。在这些模型中，包含tau/Aβ42的模型在重分类方面改善最大，校准最佳。神经影像生物标志物提供了一致的增量预测价值。添加海马体积显著改善了区分度（delta C-index 0.011）和模型拟合，同时保持校准斜率接近1（0.908）。包含氟贝他匹-PET的模型也增强了区分度，尽管重分类没有显著改善。结合FDG和氟贝他匹PET的模型达到了最高的整体性能（表观C-index 0.805；乐观校正C-index 0.768），模型拟合和重分类显著改善，校准可接受。

在HABS队列中的外部验证确认了临床模型的稳健性，其C-index为0.734。包含APOE4的模型产生了相似的C-index（0.733）。纳入海马体积的模型也在外部验证中表现良好（C-index 0.716），而包含FDG-PET摄取的模型区分度低于训练数据集（表观C-index 0.721；外部C-index 0.637）。由于HABS中这些测量的可用性有限，未对外部验证包含血浆或CSF生物标志物的模型。总体而言，这些结果表明，基于临床变量、APOE4和海马体积的模型在独立队列中保持了良好的区分度，支持其泛化性。

最终，研究人员选择了五个模型用于实际应用，并将其部署为网络应用程序。临床模型适用于一般神经病学或老年病学环境。该模型在613名参与者（123例事件）中开发，显示出可接受的区分度、优异的校准度以及在内部和外部验证中一致的表现。纳入海马体积和血浆NfL水平的模型更适合记忆门诊，因为它们需要非常规数据。这两个模型的C-index值均高于临床模型，同时保持了良好的校准度。海马模型与临床模型同样稳健，而NfL模型在272名参与者（59例事件）中开发，未经过外部验证。纳入CSF tau/Aβ42以及FDG和氟贝他匹PET的模型主要适用于研究环境。这些模型相较于之前的模型展现出更高的区分度，但其稳健性受到较小训练样本量和缺乏外部验证的限制。

在所有五个模型中，按线性预测值的三分位数进行分组，均产生了清晰分离的累积发生率曲线（log-rank p < 0.0001）。在所有情况下，低风险组均显示出持续较低的认知障碍发生率。与临床模型相比，包含生物标志物的模型在风险组之间显示出更早和更显著的差异。临床模型在大多数测试的风险阈值下，其净获益高于默认策略。在非常低的风险阈值下，其表现与“全部视为有障碍”策略重叠。包含海马体积和血浆NfL的模型与临床模型相比仅表现出微小差异。相反，包含CSF tau/Aβ42或FDG和氟贝他匹PET摄取的模型明显优于临床模型，尤其是在较高的风险阈值下。

基于所选模型，研究人员开发了五个网络应用程序。用户只需互联网连接和网络浏览器即可访问。初始屏幕显示预测因子值的输入字段，默认设置对应其预测因子的中位值。点击“预测”按钮后，结果出现在屏幕右侧。应用程序提供个体化的风险分组（低、中、高）、带有95%置信区间的5年风险估计，以及当前病例和平均病例（具有预测因子中位数值）的10年累积发生率轨迹。

讨论部分总结如下：本研究开发并评估了Cox回归模型，用于预测认知正常老年人的事件性认知障碍。利用ADNI的纵向数据，并在HABS中进行了外部验证，研究人员发现一个包含年龄、教育程度、MoCA分数和延迟词语回忆的简洁临床模型能够可靠地将个体在10年跨度内划分为低、中、高风险组。添加选定的生物标志物提供了模型区分度的增量改进。这些模型旨在支持临床实践，不应被解释为诊断测试。

使用预定策略，研究人员选择了五个模型，组织在一个反映递增复杂性的分层框架中。在最易获取的层面，临床模型显示出可接受的区分度、优异的校准度以及一致的内部和外部验证，支持其在一般神经病学或老年病学环境中的使用。在中间层面（例如记忆单元），包含海马体积或血浆NfL的模型提高了区分度，但需要非常规数据。海马模型显示出稳健的验证，而血浆NfL模型在较小的数据集中开发且未经外部验证，需要更谨慎的解读。在最复杂的层面，包含CSF tau/Aβ42或FDG和氟贝他匹PET的模型达到了最高的区分度，但受限于较小的样本、可及性降低以及缺乏外部验证，限制了其应用于研究环境。

为促进实际使用，这些模型被部署为网络应用程序（CogStrat），提供个体化的风险分组、5年风险估计和10年累积发生率曲线。从临床角度来看，CogStrat工具为认知正常老年人的风险分层提供了可操作的信息。具体而言，它们可能支持关于纵向随访强度、优先将个体转诊至专门记忆门诊以及识别预防性干预或临床试验候选者的决策。能够识别持续低风险的个体也有助于避免不必要的检查，并在常规临床实践中提供 reassurance。

该领域预测认知正常人群认知障碍的现有模型在研究设计、预测因子和验证策略方面差异很大。重要的是，现有文献的大部分集中于预测从MCI到痴呆的进展，由于疾病阶段更晚期，预测性能通常更高。相比之下，较少研究关注预测认知正常个体的事件性认知障碍，这是一个更具挑战性但对早期风险分层具有临床相关性的任务。

早期模型经常来源于回顾性或横断面数据，而近期研究越来越依赖于前瞻性纵向队列。本研究的模型在ADNI中开发并在HABS中进行外部验证，这两项是特征明确、具有标准化认知和生物标志物评估的纵向研究。

样本量和随访时间也影响了已发表模型的稳健性。几项早期研究受限于相对较小的样本量或较短的随访期，而近期工作得益于更大的队列和更长的观察时间。与方法学建议一致，研究人员对临床和海马体积模型抱有最大信心，这些模型使用足够大的样本（>500）、足够的事件数（>100）和保守的预测因子与事件比（<10）开发。

该领域的建模策略已从主要依赖logistic回归方法发展到更多地使用时间-事件模型，以及最近的机器学习方法。虽然机器学习方法可以提供预测性能的增量改进，但它们通常会降低临床环境中的可解释性，并增加过拟合的风险。本研究使用Cox PH回归反映了一种倾向于透明度和临床适用性的刻意权衡。

模型性能的报告随着时间的推移有所改善，但仍然存在重要差距。尽管区分度指标（如AUC或C-index）现在常规报告，但校准度仍然经常被低估，而校准度对于临床决策至关重要。在本研究中，研究人员系统地报告了区分度和校准度，并使用面向临床的指标（包括NRI和DCA）评估了生物标志物的增量价值，这些指标通常缓和了经典模型拟合度量所提示的改进。该领域报告的C-index/AUC值通常在0.60至0.70之间，强化了精确绝对风险预测的局限性，并支持研究人员对风险分层的强调。

验证实践同样有所改进，但外部验证仍然相对不常见，许多模型仅在内部进行评估。这一局限性引发了对跨人群和临床场景泛化性的担忧。通过为关键模型纳入内部和外部验证，本研究解决了先前工作中常见的局限性。然而，由于数据可用性的差异，无法对外部验证所有基于生物标志物的模型，这突显了开发广泛通用的多模态预后工具的挑战。

除了单个模型验证之外，对多个预测模型进行系统性外部验证和头对头比较代表了未来研究的重要方向。这种需求的相关性已在其他领域（特别是心血管风险预测）中被评论过，但在痴呆研究中，特别是对于基于生物标志物的模型，仍然相对有限。最近比较已建立的痴呆风险评分的研究说明了模型性能在人群中的可行性和变异性。进行此类分析需要访问包含所有相关预测因子的协调纵向数据集，这代表着一个重大的方法学挑战。

关于预测因子选择，早期模型主要依赖于人口统计学和认知变量，而后来的研究越来越多地纳入遗传学、血管、生活方式和生物标志物数据。近期研究报告了血浆生物标志物与认知未受损成人未来认知衰退之间的关联。Yakoub等人（2025）表明血浆p-tau217可以分层MCI进展的长期风险，具有很强的群体水平区分度。然而，他们的分析没有评估校准度或p-tau217在认知测量之外的增量价值。相比之下，尽管p-tau217在本研究中是一个显著的单变量预测因子，但将其纳入多变量模型对区分度的改善很小，并且与较差的校准度相关。最后，本研究的结果强调了MoCA相较于MMSE的优越预后价值，支持其在诊断筛查之外的应用。

一些预测模型已被实施为痴呆风险计算器，主要在公共卫生和预防框架内。CAIDE评分源自基于人群的中年队列，广泛应用于流行病学研究。ANU-ADRI和CogDrisk明确设计为社区成人的自我报告计算器，强调可改变的生活方式和血管因素。类似地，LIBRA指数量化可改变的风险因素，主要应用于预防研究。相比之下，CogStrat应用程序旨在将预后模型转化为支持临床实践的工具，实现风险分层并指导纵向监测的分诊。

本研究存在一些局限性。首先，ADNI和HABS都是基于志愿者的队列，富含AD风险，这可能会限制其对更广泛或更多样化人群的泛化性。其次，ADNI队列主要关注遗忘型、晚发型AD，这可能会降低研究结果对非典型AD表现或非AD痴呆的适用性。第三，某些生物标志物特异性数据集的样本量有限，限制了验证，并可能约束一些高性能模型的临床适用性。第四，缺失和不重叠的生物标志物数据阻碍了结合多种生物标志物的多模态模型的构建。最后，尽管这些模型估计长期风险，但它们仍然是概率性的，并且尚未经过临床决策影响的前瞻性测试。需要在基于人群、更多样化和非研究队列样本中进行进一步验证，以确认其在不同环境下的泛化性。

结论部分翻译如下：总之，CogStrat提供了一个可用于预测老年人认知障碍长期风险的框架，该框架可以根据不同环境进行调整。通过将统计模型转化为免费、可访问的交互式工具，它代表了将纵向风险建模整合到常规临床实践中、实现个性化监测和针对性随访的务实一步。

热点排行