综述：人工智能用于痴呆症障碍自动诊断：技术、应用与挑战的范围综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Intelligence-Based Medicine》：Artificial intelligence in the automatic diagnosis of dementia disorders: A scoping review of techniques, applications, and challenges

【字体：大中小】 时间：2026年06月19日 来源：Intelligence-Based Medicine CS5.0

编辑推荐：

　　痴呆症诊断因症状重叠、标签噪声（label noise）以及专科医疗资源有限而面临挑战。人工智能（artificial intelligence, AI）有望从多模态数据和神经影像中推断诊断模式。本研究按照系统综述与荟萃分析优先报告条目扩展声明（Preferr

痴呆症诊断因症状重叠、标签噪声（label noise）以及专科医疗资源有限而面临挑战。人工智能（artificial intelligence, AI）有望从多模态数据和神经影像中推断诊断模式。本研究按照系统综述与荟萃分析优先报告条目扩展声明（Preferred Reporting Items for Systematic Reviews and Meta-Analyses extension for Scoping Reviews, PRISMA-ScR）指南，检索了Scopus、PubMed和IEEE Xplore数据库中2014至2025年间评估AI模型用于痴呆症诊断的同行评审论文。研究纳入15篇文献并进行叙述性综合。AI任务主要分为三类：阿尔茨海默病（Alzheimer's disease, AD）与健康认知状态二元分类（受试者工作特征曲线下面积AUCs 0.88–0.98）、多病因鉴别诊断（AUCs 0.82–0.96）、以及轻度认知损害（mild cognitive impairment, MCI）向AD转化的预后预测（AUCs 0.74–0.84）。深度学习模型占主导地位，其中病理监督多标签学习、混杂因素感知视觉变换器（vision transformer）以及基于弹性网络（elastic-net）的蛋白质组学分类器展现出最强的临床前景。外部泛化、标签噪声和公平性差距在各研究中持续存在。可信的临床转化需要多中心验证、病理对齐的真实标签，以及整合解剖学、功能学和分子信号的最小化多模态配置。

**1. 引言**

痴呆症是一种进行性认知与行为衰退综合征，严重程度足以干扰日常功能。该疾病具有高度异质性，主要包括阿尔茨海默病（AD）、血管性痴呆（vascular dementia, VD）、路易体痴呆（dementia with Lewy bodies, DLB）和额颞叶痴呆（frontotemporal dementia, FTD）等亚型。2020年全球超过5000万人罹患痴呆症，预计2050年将达1.5亿，且超过60%的病例集中于中低收入国家。由于症状隐匿、临床表型重叠及评估主观性强，痴呆症诊断常被延误或漏诊，尤其在疾病早期。早期识别对患者和医疗系统均有益处，可于临床转化前期进行干预以延缓功能衰退。人工智能作为从神经影像和多模态数据中提取高维模式的技术手段，日益受到关注。本范围综述旨在梳理AI在痴呆症自动诊断中的应用，涵盖二元AD与健康认知状态分类、多病因鉴别诊断及预后/非典型检测任务，并重点审视影响真实世界可信度的设计选择。

**2. 方法**

本综述遵循PRISMA-ScR指南，从诊断任务、数据模态、模型族、验证策略和转化就绪度五个预设维度对证据进行绘制。纳入标准为2014至2025年间发表、开发或评估AI模型用于痴呆症自动诊断的同行评审期刊论文，要求报告诊断性能指标并描述训练与验证流程。检索数据库包括Scopus、PubMed和IEEE Xplore，检索词围绕AI技术、痴呆亚型、诊断任务和验证方法四个概念组织。文献导入Rayyan软件进行去重和筛选，由第一作者完成标题/摘要初筛，全文阶段由第二作者独立复核纳入决策，分歧通过讨论解决。最终15篇文献纳入综述，采用标准化表格提取数据并进行主题分组与叙述性综合。

**3. 结果**

3.1 研究特征与诊断任务

15项研究主要分布于欧洲、北美和东亚，中低收入地区代表性有限。样本量从不足100例至超过10,000例不等，两项研究使用来自1000余家机构的电子健康记录级影像数据。队列异质性显著，一项基于尸检的研究显示71%的痴呆患者存在多种病理共存，但67%临床仅诊断为AD，凸显了常规诊断中的标签噪声问题。12项研究纳入外部或留数据集验证，3项仅依赖内部交叉验证，限制了泛化性推断的强度。

AI任务聚类为三个主题：（1）二元AD与健康认知状态分类；（2）多病因鉴别诊断；（3）预后或非典型痴呆检测。

3.1.1 AD与健康认知状态分类

此为最常见且直接的任务。基于结构磁共振成像（structural MRI, sMRI）或氟脱氧葡萄糖正电子发射断层扫描（FDG-PET）的卷积神经网络（CNN）和支持向量机（SVM）均取得高准确度，且通常能很好泛化至外部临床机构。例如，基于T1加权MRI的切片级CNN在两个种族不同人群中AUC达0.91–0.94，队列间测试为0.88–0.89，处理时间约24秒/例。SVM在调制灰质图加认知测试上从ADNI泛化至记忆门诊数据时，外部表现略优于CNN。在代谢成像领域，采用条件生成对抗网络（conditional generative adversarial network, cGAN）选取信息性切片后接SVM的FDG-PET分类器，在ADNI和独立医院队列均达约0.98的AUC。影像与简短认知筛查结合可进一步提升可移植性，认知评分在跨国评估中常承载最主要的判别信息。蛋白质组学研究亦鉴定出 compact 的脑脊液（cerebrospinal fluid, CSF）或血浆蛋白 panel，AUC约0.88–0.98，为影像不可行场景提供可扩展替代方案。

3.1.2 鉴别诊断

鉴别AD与其他痴呆病因显著难于AD-正常分类，因队列构成、标签保真度和混合病理驱动误差。病理监督的多标签3D残差网络（Residual Network, ResNet）基于尸检确认病例训练，输出AD、VD和DLB病理的独立指数，平衡准确度分别为0.844、0.839和0.623。显著性图分别显示AD的双侧海马萎缩、VD的白质病变和DLB的枕叶萎缩，且病理特异性指数与认知评分和神经病理学指标相关。混杂感知3D视觉变换器基于健康系统网络的183,018例MRI训练，采用对抗性去混杂学习扫描仪不变特征，在1003个外部站点AUC达0.82–0.94，注意力图聚焦于皮质下结构。另一多模态变换器基于9个数据集的51,269例参与者，整合影像、人口学和临床数据，正常-vs-MCI-vs痴呆状态分类的微平均AUROC达0.94，10种痴呆病因鉴别达0.96，辅助神经科医师提升诊断准确度超26%。结构MRI与静息态功能连接结合随机森林的多模态分类器鉴别行为变异型额颞叶痴呆（behavioral-variant FTD, bvFTD）与健康对照的准确度达91%，灵敏度83.7%，特异度96.6%。FDG-PET对AD与路易体谱系鉴别的特异度通常高于结构MRI，而灌注单光子发射计算机断层扫描（SPECT）灵敏度相似但假阳性率更高。

3.1.3 预后与非典型痴呆检测

该组任务聚焦于MCI向AD进展的预后模型，以及bvFTD等特定综合征的识别，呈现出最大的泛化差距。MCI-AD进展模型的开发AUC多为0.70–0.80中段，但外部验证时常因域迁移和嘈杂的转化标签而衰退。基于原型的广义矩阵学习向量量化（generalized matrix learning vector quantization, GMLVQ）模型将MCI患者映射至稳定与进展的可解释轨迹，外部样本测试准确度81.7%、AUC 0.84，AD转化的风险比为3.42，优于基线临床标志物。bvFTD的早期检测与转化仍困难，SVM结合灰质萎缩与认知特征可改善鉴别，但与精神疾病或其他痴呆鉴别时性能显著下降。

3.2 AI技术评估

方法选择随模态和临床问题而非潮流变化。神经影像上，基于T1加权MRI或FDG-PET的CNN（2D/3D）提供基线解剖或代谢信号，在规范预评估和严谨评估下可实现外部队列迁移。标签嘈杂和病因重叠场景下，病理对齐的多标签3D ResNet较单标签方案更具信息量，生成AD、血管性和路易体病理的连续指数，定位至预期神经解剖并关联认知及尸检标志。FDG-PET上，GAN辅助表征稳定信号并支持高效下游分类。经典机器学习在特征具信息性或样本量适当时保持竞争力：基于体积、灌注或连接特征的SVM有时在外部测试中匹配或超越深度模型，凸显透明基线和规范特征流程的价值。预后方面，基于原型的度量学习（GMLVQ）沿稳定vs进展的可解释轨迹组织MCI表现，增加预后价值并提供案例参照解释。

最实质性的转变朝向变换器模型。混杂感知3D视觉变换器经对抗性去混杂训练学习扫描仪不变MRI表征，在健康系统规模保持性能，显示较常规CNN对采集和工作流程变异的更强韧性。多模态变换器通过跨模态注意力融合影像与人口学、病史及神经心理/功能评估，容忍缺失模态，并提升临床医师在困难鉴别中的表现。

影像之外，专门流程处理高维小样本分子数据：弹性网络分类器结合SHAP（SHapley Additive exPlanations）归因导出紧凑血浆panel，在独立、种族多样队列中复现，突出基质组学和脑血管通路；随机森林引导流程结合靶向平行反应监测（parallel reaction monitoring, PRM）获得高判别力CSF/血清panel。

3.3 关键挑战与局限性

外部泛化是主要瓶颈。开发数据上表现强劲的模型因扫描仪、站点和人群迁移而在外部队列中丧失准确度。混杂感知训练和增强 attenuated 但未消除这些效应，且站点级离散度、校准和不确定性的报告稀少，限制了头条AUC的可解释性。标签保真度亦约束性能：多数影像流程以共识临床诊断监督，对早期或混合痴呆存在噪声；病理对齐监督提升生物学特异性但依赖更小、更不平衡的尸检队列。数据集构成引入谱偏倚，过度依赖ADNI等较清洁表型而非记忆门诊所见。技术特定权衡明显：CNN提供强基线但数据需求高且对迁移敏感，显著性解释缺乏稳定性；变换器模型处理异质性和缺失性并提升临床医师表现，但残余站点效应、计算负担及稀缺的校准/公平性审计持续存在。GAN辅助PET管道以AUC提升换取两阶段复杂性和对临床标签的依赖。经典机器学习在特征具信息性或样本量适中时保持竞争力，但性能依赖稳定的工程特征集。蛋白质组学中，不完全多模态性和检测平台/方法学问题限制生物学锚定，前瞻性、临床医师在环的评估解释稳定性和决策影响罕见。

**4. 讨论**

4.1 从基准测试到床旁：确保可靠性与可信度

本范围综述与近期关于从电子健康记录中早期检测认知衰退的自然语言处理系统综述互补，涵盖更广泛的模态（结构/代谢神经影像、液体蛋白质组学、认知测试及其多模态组合）和三种诊断任务，并强调验证严谨性、域迁移下泛化性和临床转化就绪度。

ADNI上表现卓越的模型在分布迁移下频繁丧失准确度，尤其面对新扫描仪、采集协议或患者混合时。单点交叉验证夸大表观性能，而多中心开发和留数据集测试更好逼近真实部署。可信转化依赖将异质性和缺失性作为一阶考虑的设计：预设外部验证、报告站点/亚组特异性离散度而非单一聚合AUC、显式校准和不确定性估计。数据汇聚不可行时，联邦学习或分布式学习提供在不移动敏感数据情况下增加多样性的务实路径，解决此处记录的泛化差距关键成因。

可靠性亦取决于AI与临床医师的协同使用方式，而非仅取决于训练方式。系统需交付决策有用的解释——如对齐病理评分的区域级图、模态贡献摘要、具通路背景的蛋白归因、以及基于原型的比较器——这些产物需前瞻性评估稳定性和临床影响。临床医师在环时，诊断准确度和决策校准的改善已有观察。常规报告应包括留站点/留数据集验证及站点级结果、校准与不确定性估计、亚组/公平性审计、以及预设操作阈值，使临床医师能判断本地人群的可信度。

TRIPOD-AI（预测模型）、STARD-AI（诊断准确度研究）、DECIDE-AI（早期前瞻性评估）和CONSORT-AI（临床试验）等社区标准已成熟，界定从开发到部署的序贯评估阶段。早期研究以既定清单记录数据来源、缺失性和混杂处理及模型可解释性；后续工作进展至DECIDE-AI下的实时临床评估，以及必要时符合CONSORT-AI的前瞻性试验。该分阶段方法将技术进展与透明、可复现证据相联结，加速从基准优胜到床旁应用的推进。

4.2 推动临床转化的关键进展

近期创新汇聚于三个互补轴——解剖结构、功能表型和分子信号——推动AI for dementia从排行榜收益迈向可信床旁应用。

解剖轴上，混杂感知3D视觉变换器和多模态变换器通过对抗性去混杂和跨模态注意力学习扫描仪不变MRI表征并融合临床情境，容忍缺失输入，提供模态级注意力供审计，在众多外部站点维持高准确度，并在困难鉴别中展示临床医师在环增益。该区域证据与案例决策的联结支持解剖定位同时保持对真实世界异质性的韧性。

结构进展与目标保真度和功能读数的改善相匹配。为缓解早期或混合痴呆的标签噪声，病理对齐的多标签深度学习（3D ResNet）生成AD、血管性和路易体病理的独立连续指数，定位于预期神经解剖并关联认知和尸检标志，将解剖信号锚定于生物学。功能表型轴上，GMLVQ将MCI表现映射至稳定vs进展的可解释轨迹，提供临床医师可审计的案例参照原型比较，跨诊所迁移时保持解释价值，支持共同决策。

蛋白质组学补充提供分子读数。弹性网络分类器配对模型不可知归因（SHAP）恢复紧凑、可复现的血浆蛋白面板，呈现与仔细的神经变性通路级信号；随机森林引导特征优选结合靶向PRM交付高判别力CSF/血清面板并具跨队列稳健性。

这些进展表明，转化更少依赖于发明新架构，更多在于组装已能泛化、解释和复现的组件。可行的诊断默认配置以最小多模态为中心：质控T1加权MRI（解剖）、简短认知测试（功能表型）和标准化血浆面板（分子信号）——在缺失性感知融合方法中动态重加权证据并报告经校准、可审计的输出。该配置契合常规记忆门诊流程，最小化成本和患者负担，在留数据集测试和临床医师在环评估下超越开发数据集泛化。

4.2.1 将证据映射至记忆门诊流程

记忆门诊流程包含三个临床决策点——分诊（认知损害与否）、病因鉴别（AD、血管性、路易体或额颞叶）和预后分层（MCI进展风险）——与本综述识别的三个任务集群直接对应。

分诊时，二元AD-正常分类提供第二阅读者或分诊标记信号而非独立诊断。因认知评分承载跨国评估中大部分判别力，最低可部署配置为质控T1加权MRI加标准化认知测试，已是常规记忆门诊评估组成部分。在MRI受限场景（包括中低收入环境），跨种族多样队列复现的血浆蛋白质组学面板提供可信的替代方案。病因鉴别时，病理对齐监督和卫生系统规模扫描仪不变性将可部署子集与探索性子集区分：前者从源头解决标签噪声，后者在1003个外部站点得到验证。多模态变换器辅助神经科医师准确度提升超26%，确认适当部署模式为专科评估旁决策支持，非自主诊断。预后分层时，性能因域迁移和嘈杂转化标签在外部队列中一致衰退。鉴于监测频率、疾病修饰治疗资格、患者咨询等下游决策后果重大，可解释轨迹模型较不透明高准确度替代更适合整合。

分诊和病因鉴别需至少一个独立机构队列的外部或留数据集验证，方可进展至DECIDE-AI下前瞻性评估，开发阶段按TRIPOD-AI、诊断准确度按STARD-AI、后续试验按CONSORT-AI报告。预后分层则需至少两个有足够随访观察转化事件的队列进行外部验证。所有决策点上，校准评估和人口亚组分析在多数纳入研究中缺失或报告不足，部署前应强制要求。

转化差距在于证据而非算法。满足临床决策支持部署质量的模型在分诊和病因鉴别决策点已存在。缺失的是前瞻性临床医师在环评估、校准报告和人口亚组审计——弥补该差距而非追求进一步架构创新，是本综述为该领域识别的优先事项。

4.3 局限性

本综述局限包括：仅纳入2014–2025年英文同行评审期刊论文，排除预印本和会议摘要可能延迟最新方法纳入并引入发表偏倚，语言限制可能低代表非英语研究社区；标题/摘要阶段未实施双独立筛选，引入选择偏倚风险；研究间人群、模态和结局指标的高度异质性排除定量综合，仅行叙述综合且无正式偏倚风险或GRADE确定性评估；发现依赖纳入研究的报告准确性和完整性，外部验证和校准报告不一致；证据基础偏向高收入环境和ADNI式队列，限制对常规记忆门诊人群和中低收入情境的泛化性。此外，综述方案未前瞻性注册。

下一步需进行方案注册的系统综述和荟萃分析以估计汇总诊断准确度并量化异质性来源。前瞻性多中心临床医师在环评估亟需开展，尤其在代表性不足地区，并辅以标准化报告。

联系信箱：

粤ICP备09063491号

热点排行