《Health Science Reports》:Application of Artificial Intelligence in the Diagnosis, Prediction, and Management of Metabolic Syndrome: A Systematic Review
编辑推荐:
背景与目的:代谢综合征(MetS)与心血管疾病和2型糖尿病风险增加相关,近期全球患病率估计在成人中约为28%–31%。人工智能(AI)和机器学习(ML)提供了超越传统统计方法改善风险分层的潜力。本系统综述旨在综合关于AI在MetS诊断和预测中应用的证据,同时评
背景与目的:代谢综合征(MetS)与心血管疾病和2型糖尿病风险增加相关,近期全球患病率估计在成人中约为28%–31%。人工智能(AI)和机器学习(ML)提供了超越传统统计方法改善风险分层的潜力。本系统综述旨在综合关于AI在MetS诊断和预测中应用的证据,同时评估其在预防和管理延伸应用中的有限证据。方法:遵循PRISMA和SAMPL指南,研究人员于2025年在PubMed、Web of Science、Scopus和Google Scholar中进行了系统文献检索,无日期限制。检索词包括“artificial intelligence”、“machine learning”、“metabolic syndrome”、“diagnosis”、“prediction”、“prevention”和“management”。仅纳入英文原创研究。两名研究人员独立筛选标题/摘要和全文。提取数据包括研究特征、样本量、AI算法、特征类型、性能指标和关键发现。结果:在1178条识别记录中,64篇全文文章进行了合格性评估;12项研究(n=12/64)符合纳入标准。大多数研究使用支持向量机(SVM)、人工神经网络(ANN)、k近邻(KNN)和随机森林(RF)等算法处理诊断或预测任务。多数模型采用非侵入性特征,报告受试者工作特征曲线下面积(AUC)值范围为0.82至0.99。仅少数研究(n=3/12)提供了长期管理或行为预防的证据,且仍主要处于探索性阶段。在综述文献中,不确定性度量(例如95%置信区间)和模型可解释性技术(例如SHAP、置换重要性)的形式化报告普遍缺失。结论:AI在MetS的非侵入性诊断和风险预测方面显示出前景。然而,预防和个性化管理方面的应用仍不成熟。实现AI的全部临床潜力将需要严格的外部验证、增强的模型可解释性以及教育推广,以弥合当前实施差距。
1 引言
代谢综合征(MetS)以一组相互关联的代谢异常为特征,包括中心性肥胖、高血压、高血糖和血脂异常(通常表现为甘油三酯升高和高密度脂蛋白胆固醇(HDL-C)降低)。它被认为是心血管疾病(CVD)、慢性肾脏病(CKD)和2型糖尿病(T2DM)早发和进展的重要风险因素。MetS也常与非心血管代谢疾病相关,如肝脂肪变性、胆固醇性胆结石、阻塞性睡眠呼吸暂停、痛风、抑郁和多囊卵巢综合征。全球MetS患病率较高,因诊断标准(如IDF、ATP III)、年龄、性别、种族和地区而异。据国际糖尿病联盟(IDF)估计,约25%的成人符合标准,但近期系统分析和流行病学数据表明,许多人群的患病率在20%–45%之间,近年全球平均水平约为28%–31%。老年人患病率尤其高(60岁以上人群中20%–30%或更高),显著增加了全因死亡率。由于持续的生活方式转变和人口结构变化,预测显示患病率将进一步增加。饮酒和吸烟进一步加剧了超重和肥胖个体的MetS风险,这一动态在近期前瞻性证据中尤为明显,强调了详细身体成分指标与长期心血管代谢结局之间的复杂关联。准确及时地识别高危个体对于实现早期干预和减轻MetS的长期健康与经济负担至关重要。其多因素病因学,包括快速生活方式改变、社会经济差异和遗传易感性,对传统风险评估工具(如线性回归模型或简单风险评分)构成挑战,这些工具通常难以处理非线性交互、异质性数据源和复杂的多维参数。近年来,电子健康记录(EHR)、可穿戴设备、基因组测序和大规模临床数据集的快速扩展产生了海量异质数据,超出了传统统计方法的分析能力。人工智能(AI),特别是机器学习(ML),已被越来越多地提出作为解决这些局限性的稳健替代方案,通过识别高维数据中的复杂非线性模式。AI在医疗中的应用已改进了诊断模式识别(例如在影像学中)和预测建模,人工神经网络(ANN)、决策树(DT)、支持向量机(SVM)和随机森林(RF)等算法在MetS背景下显示出潜力。这些工具也可能支持预防项目、临床决策支持和个体化应用。然而,许多“黑箱”模型的可解释性仍是临床信任和采用的关键问题。近期研究进一步展示了机器学习模型使用非侵入性、易测量特征预测MetS的潜力。例如,Choi等人开发并验证了基于人体测量和生物电阻抗的ML模型,准确识别了儿童MetS,提示了AI驱动风险预测框架在临床环境中的更广泛适用性。类似地,计算健康领域的最新进展强调了向个性化医疗的转变;例如,Clarós等人提出了一种基于AI的模型来预测和预防与MetS特别相关的非传染性疾病,强调了以患者为中心的AI干预的必要性。然而,这些进展凸显了需要进行系统综合以确定此类性能在文献中是否一致。尽管有这些有前景的个体应用,但关于AI在MetS中的文献仍然分散,算法、数据集、人群、诊断标准和报告标准存在显著异质性。以往的综述通常关注传统统计方法或诊断的有限方面,在AI应用于MetS诊断和预测的综合系统综合方面留下了关键空白。此外,很少有研究系统地检查研究是否充分解决了模型可解释性(例如通过SHAP或置换重要性等技术)以促进临床转化。“本系统综述旨在综合当前关于AI算法在MetS诊断和预测中作用的证据,评估不同算法方法、特征类型(侵入性和非侵入性)和人群中的性能。”通过以结构化方式整合现有研究并强调方法学空白,本综述旨在阐明AI在MetS护理中的现状,并为未来稳健验证和实施提供方向。为指导本综合,研究人员开发了一个概念框架(图1),说明将包括临床、影像、基因组、生化和生活方式数据在内的多种潜在数据源整合到机器学习模型中,用于MetS的诊断、预测和个性化管理,反映了本综述分析中当前和新兴AI应用的广泛范围。
2 方法
2.1 研究设计
本系统综述于2025年进行,遵循PRISMA 2020声明。研究选择过程总结在PRISMA流程图(图2)中。综述方案未前瞻性注册,因为这是一项探索性叙述综合而非正式荟萃分析。在PubMed、Scopus、Web of Science和Google Scholar中使用关键词“artificial intelligence”、“prediction”、“diagnosis”、“treatment”和“metabolic syndrome”,结合适当的布尔运算符和适用的MeSH术语进行文献检索。各数据库的详细检索策略见附录A。
2.2 资格标准
主要研究问题为:当前关于AI算法在MetS诊断、预测或管理中应用的证据是什么?资格标准包括同行评审的英文原创研究,这些研究调查了AI算法在MetS诊断、治疗或预防中的应用。研究需要报告在人类参与者中关于AI模型性能的原始实证数据(例如准确性、AUC、敏感性、特异性)。需要全文访问才能纳入。排除标准为:(1)非英文文章;(2)非同行评审来源,包括会议摘要、书籍、综述、信件和编辑通信;(3)研究目标与标题、摘要或全文之间缺乏概念一致性;(4)无法获取全文;(5)撤稿出版物(在数据提取前通过PubMed撤稿标签和Retraction Watch数据库检查)。
2.3 研究选择与数据提取
使用EndNote 21版本删除重复记录。两名独立研究人员根据预定义的资格标准筛选标题和摘要,分歧通过共识或咨询第三名研究人员解决。然后评估全文文章的合格性。数据提取由两名研究人员独立使用标准化表格进行,捕获:研究标题、发表年份、第一作者、国家、研究设计、参与者特征(例如年龄、性别、人群类型)、数据集大小、研究目标、应用的AI算法/技术、验证方法、输入特征类型、变量重要性方法(如果报告,包括是否使用基于杂质的方法、置换重要性或Shapley加法解释(SHAP))以及性能指标(例如准确性、AUC、敏感性、特异性)。如果原始研究报告了假设检验,则记录具体检验、先验显著性水平(通常α=0.05,双侧)以及作者描述的任何多重性调整。任何分歧通过讨论解决。
2.4 数据综合
提取的数据进行叙述性综合,发现以表格形式总结(见附录B中12项纳入研究的综合总结表)。定性综合侧重于所采用的AI技术类型、报告的性能、参与者人群以及对MetS管理的影响。所有分析预先指定为描述性和叙述性;本综述未进行探索性推断统计检验。由于研究设计、人群、结局和报告指标存在异质性,未进行正式荟萃分析。性能指标的报告遵循SAMPL指南和临床研究中统计报告指南的一般原则,包括强调效应量、不确定性度量(如可用)以及避免过度依赖假设检验。数据管理和综合在Microsoft Excel中进行,并使用叙述性编译;无需专门统计软件。透明度声明:通讯作者拥有所有数据的完全访问权,并对数据的完整性和分析的准确性负责。
2.5 AI在MetS管理中的概念框架
为综合本综述的发现,研究人员开发了一个概念框架(图1),说明各种数据源——临床、影像、基因组、生化和生活方式——如何整合到机器学习模型(例如ANN、LR、KNN、DT、RF和SVM)中,以支持MetS的诊断、预测/风险分层、预防和治疗/管理。该框架强调了潜在益处,包括提高诊断准确性、早期检测、个性化干预、减轻疾病负担和改善患者结局,直接基于纳入研究中观察到的模式。
2.6 偏倚风险与适用性评估
使用预测模型偏倚风险评估工具对纳入预测模型的方法学质量和适用性进行系统评估。该验证工具评估了四个关键领域:参与者、预测因子、结局和分析。对于每项纳入研究,两名研究人员独立评估每个领域的偏倚风险(低、高或不明确)和适用性关切,分歧通过共识解决。PROBAST评估侧重于研究设计(例如回顾性与前瞻性)、参与者选择、预测因子测量、结局定义、样本量充分性、缺失数据处理、过拟合和校准等方面。PROBAST评估结果总结在附录C中,强调了综述文献中潜在偏倚的常见来源及其对AI模型在MetS管理中临床适用性的影响。
3 结果
共识别出1178条记录。经过初步标题和摘要筛选,64篇文章被认为适合进行全文审查。在评估全文后,排除了33篇文章,最终有12项研究纳入分析。一项潜在合格研究因通过Retraction Watch数据库检查发现作者诚信问题而被排除。研究选择过程如图2所示。
3.1 研究特征
在12项纳入研究中,五项在中国进行,三项在台湾,两项在伊朗。其余研究在沙特阿拉伯和希腊进行。这些研究的特征、方法和性能的综合总结见附录B。纳入研究涵盖了多种研究设计,包括横断面、回顾性队列、前瞻性队列和纵向队列设计。数据集大小差异很大,从遗传关联研究中的124名参与者到大规模纵向队列中的27,415名参与者。大多数研究包括混合性别的成年人群,参与者特征根据研究范围而异,如一般人群样本、临床队列或高风险群体。关于分析方法,最常应用的机器学习算法是SVM、逻辑回归(LR)模型、DT、RF模型、KNN算法和ANN。输入特征因研究而异,包括非侵入性人体测量指标、临床和实验室变量、饮食摄入数据、生活方式和社会经济指标以及遗传单核苷酸多态性(SNPs)。大多数研究关注预测或诊断MetS,验证策略主要基于训练-测试分割、交叉验证或外部验证,取决于数据可用性和研究设计。
3.2 ML算法在MetS诊断中的效果(表1)
Cai等人(2024年,中国)使用基于ML的分类方法,基于NHANES数据识别了与MetS相关的年龄特异性营养素摄入模式。尽管通过年龄特异性营养素-MetS关联报告了性能指标,但该研究未明确报告具体的变量重要性方法(例如SHAP或置换重要性)。Chen等人(2014年,中国)仅使用身体体征在2074名兰州电网公司员工队列中开发了ANN模型以识别MetS风险。未使用生化指标,也未报告正式的变量重要性方法。ANN模型优于PCLR,实现了敏感性0.8843、特异性0.8367、阳性预测值(PPV)0.5661、阴性预测值(NPV)0.9677和AUC 0.9043,而PCLR的AUC为0.8873。Xu等人(2023年,中国)对9171名接受常规体检的成年人应用了七种监督ML分类器,基于非侵入性变量。在此项以筛查为重点的研究中未报告变量重要性分析。在外部验证中,ANN表现最佳,敏感性为71.98%,特异性为99.38%,AUC为0.989,总体分类准确性为0.956,支持其作为低成本筛查工具的作用。Duan等人(2024年,中国)提出了GP-CCBLS模型,基于基本的非侵入性临床和人口统计学风险因素对1849名成年人进行MetS诊断。尽管GP-CCBLS框架复杂,但作者未提供特征重要性的正式排名。该模型实现了准确性0.8054、敏感性0.9189、特异性0.6351、精确度0.7907和AUC 0.7770,表明是一种可靠且用户友好的早期诊断框架。Yu等人(2021年,台湾)评估了不同MetS定义(ATP III、JIS、NHLBI和IDF)下的几种ML算法。在IDF标准下,RF模型提供了最佳结果,准确性为0.947、敏感性为0.571、特异性为0.985和AUC为0.921。尽管RF固有地提供特征排名,但未针对不同诊断标准报告具体的变量重要性分数或排名。Sghaireen等人(2022年,沙特阿拉伯)在12,012名成年人的数据集中检查了十种ML算法,以降低预测诊断成本。虽然该研究使用了元启发式特征选择(例如GA和Bat算法)来优化模型,但未报告事后可解释性指标,如SHAP值。最佳平均准确性为0.7814,优化后的KNN达到0.9449,说明了算法调优对成本效益预测的益处。Panagoulias等人(2022年,希腊)开发了一种级联的基于SVM的系统,用于在成年临床队列中预测MetS及其定义因素。该研究侧重于架构而非特征贡献分析,未报告变量重要性方法。该系统对MetS预测的平均准确性约为84%,对收缩压分类的准确性为74%。在纳入研究中,主要报告了模型性能的点估计值(AUC和准确性);然而,大多数原始出版物中未明确提供95%置信区间(CIs)。此外,这些研究中未报告用于直接模型比较的正式假设检验p值,性能评估仍主要基于描述性分析。
3.3 ML算法在预测MetS中的效果(表2)
Hsu等人(2022年,台湾)在124名台湾成年人的小型队列中调查了昼夜节律基因与MetS的关联。使用对显著SNP的特征选择方法,他们比较了四种模型(LR、RF、AdaBoost和NN)。带有特征选择的神经网络(NN)模型实现了最佳整体性能,AUC为0.85、敏感性为0.699、特异性为0.834。虽然对SNP应用了特征选择,但未报告正式的事后变量重要性方法(例如SHAP)。Karimi-Alavijeh等人(2016年,伊朗)使用伊斯法罕队列研究中2107名成年人的数据预测MetS的7年发病率。他们评估了SVM和DT模型;SVM在所有指标上略优于DT,敏感性为0.774对比0.758,特异性为0.740对比0.720,准确性为0.757对比0.739。尽管未报告正式的变量重要性指标,但在DT分析中,甘油三酯(TG)被确定为关键特征。Mohseni-Takalloo等人(2024年,伊朗)探索了使用非侵入性和饮食参数在一般成年人群中预测MetS。该研究使用SVM并报告了高预测准确性;然而,可用摘要未详细说明具体性能指标或变量重要性方法。Ma等人(2024年,中国)开发了针对青海省高海拔地区3073名成年人MetS风险的预测列线图。基于LR的列线图表现出高区分能力,训练集AUC为0.918,验证集AUC为0.925。未报告正式的基于ML的变量重要性技术。Wang等人(2020年,台湾)对27,415名成年人进行了一项大规模纵向研究,基于社会经济和生活方式变化预测MetS发病。他们实施了一种使用过采样方法处理数据不平衡的ANN。平衡模型在第三次筛查阶段表现最佳,AUC为0.930、敏感性为84.0%、特异性为85.8%。未报告具体的变量重要性方法。如诊断部分所述,关注MetS预测的研究主要报告了性能的点估计值。原始出版物中报告的结果中,95% CIs和用于直接模型比较的正式假设检验(p值)基本缺失,限制了对统计精确性和比较显著性的评估。
3.4 ML算法在预测和诊断MetS中的效果(表3)
Cai等人(2024年,中国)使用基于ML的分类方法识别了不同年龄组的营养素摄入模式,比较了MetS患者与健康个体。该研究通过建立年龄特异性营养素-MetS关联,同时作为诊断和预测工具。然而,未报告正式的变量重要性方法(例如SHAP或基尼杂质),性能指标仍侧重于年龄分层营养关联而非单一全局准确性评分。Panagoulias等人(2022年,希腊)开发了一种基于级联SVM的分类器系统,用于使用生化和人体测量数据自动诊断和预测MetS定义因素。尽管摘要中未指定确切数据集大小,但模型在临床血液检查子集上进行了测试。级联架构对MetS预测的平均准确性约为84%。此外,对BMI分类的特定准确性为84%,对收缩压分类为74%。未报告明确的变量重要性方法,如置换重要性或SHAP,因为该研究优先考虑了级联分类的架构效率而非个体特征贡献分析。与表1和表2的结果一致,表3中总结的研究主要报告了模型准确性的点估计值。原始作者未提供不确定性度量(如95% CIs)和推断统计比较(p值),这限制了将级联SVM模型与其他诊断框架进行统计对比的能力。
3.5 偏倚风险与适用性评估
使用PROBAST工具对纳入研究的方法学质量进行了严格评估。如附录3和8所总结,12项研究中有8项(66.7%)被分类为总体低偏倚风险,表明研究设计和分析框架稳健。相反,3项研究(25.0%)被评估为高风险,主要由于便利抽样方法、回顾性单中心设计或来自公共存储库的数据来源不明确。一项研究(8.3%)因诊断标准细节不足被分类为偏倚风险不明确。关于适用性,大多数研究(n=10, 83.3%)显示出与临床问题的高度相关性,仅2项(16.7%)被评为不明确。值得注意的是,虽然模型性能普遍较高,但大多数研究中未明确报告关键指标(如AUC和准确性)的95% CIs。本综述中呈现的值反映了原始出版物中提供的点估计值;无法提取额外的度量或变异性。此外,综述文献中未报告用于直接头对头模型比较的正式假设检验或推断p值,性能评估严格保持描述性。
4 讨论
本系统综述强调了在MetS护理不同阶段使用AI的兴趣稳步增长。在严格符合纳入标准的12项研究中,大多数侧重于诊断应用,报告了持续高水平的准确性和临床相关性。少数研究探索了AI的预测潜力,基于非侵入性行为和社会人口统计学因素识别高风险个体。值得注意的是,在12项综述研究中,仅有限数量超出了风险预测范围以解决个性化管理,表明AI在预防中的应用相对不成熟。超出主要综合范围,外部证据进一步支持了AI的诊断潜力。例如,Choi等人(2025年)验证了儿童MetS的机器学习模型,而Deng等人(2024年)开发了评估代谢相关脂肪性肝病风险的框架。这些研究虽未纳入本综述,但强化了AI驱动代谢风险评估在分析成年MetS人群之外的更广泛适用性。AI处理大量复杂信息的能力促进了更精细的风险分层。在本系统综述中,大多数纳入研究(12项中的7项)主要关注MetS的诊断应用,而其余研究侧重于风险预测或诊断与预测的混合目标(表1和附录B)。在这些研究中,SVM、ANN、KNN和LR等算法最常应用,性能在侵入性(实验室基础)和非侵入性特征集上通常从可接受到较高,如表1-3所总结。特别是,SVM在结合人体测量和生化预测因子的高维设置中倾向于表现强劲,而ANN模型在建模生活方式、社会人口统计学和临床变量之间的复杂非线性关系时经常实现更高区分度。然而,如定性综合和评估所反映,ANN性能偶尔受到小样本或不平衡样本的限制,从而增加了过拟合风险并限制了在特定诊断和预测背景下的泛化性。尽管超出12项纳入研究的范围,基于云的再训练系统代表了向动态AI解决方案的转变,这些方案可以随着新数据积累而定期更新。在本综述中,Wang等人(2020年)等研究证明了基于ANN的模型可以利用非侵入性指标(例如腰围和社会经济状况)开发可行的筛查工具,在资源有限的基础医疗环境中可能特别有利,通过早期干预提高卫生系统效率。值得注意的是,尽管频繁使用复杂的机器学习模型,大多数综述研究未正式报告变量重要性或可解释性分析,从而限制了对单个预测因子相对贡献的洞察并制约了临床可解释性。
4.1 优势与局限性
4.1.1 优势
本系统综述具有若干显著优势。它代表了对AI算法在MetS诊断、预测和管理领域轨迹的少数综合综合之一。通过评估采用多种机器学习技术(包括SVM、ANN、KNN和混合模型)的广泛研究,本综述捕捉了当前AI应用的广度。一个关键优势是缺乏地理或经济过滤器,使来自高收入国家(HICs)和中低收入国家(LMICs)的证据得以纳入,从而增强了发现结果的全球泛化性。此外,遵循最新报告指南,本综述综合了多种临床、社会人口统计学、基因组和行为预测因子,为未来政策制定和精准医学提供了必要的多维视角。
4.1.2 局限性
尽管如此,应承认若干局限性。首先,仅纳入英文出版物可能引入了语言偏倚。第二,12项纳入研究之间存在明显的方法学异质性。许多研究使用了相对较小或不平衡的数据集,这增加了过拟合风险并限制了统计功效,特别是对于高容量模型如ANN。正如基于PROBAST的评估(附录C)所识别,一个显著局限性是大多数模型缺乏外部验证;仅依赖内部交叉验证削弱了在不同医疗环境中的泛化性。此外,研究的地理集中主要在中国、伊朗和韩国,可能限制了对其他种族队列的适用性。此外,遵循Assel等人(2018年)的建议,研究人员注意到原始文献中普遍缺乏报告的不确定性度量(例如CIs)和效应量,这使测量误差的量化复杂化。最后,“黑箱”模型的有限可解释性仍然是一个障碍。在大多数综述研究中,缺乏可解释人工智能(XAI)框架,如SHAP或基于置换的变量重要性分析,阻碍了临床透明度和从业者信任。
4.2 对临床实践和公共卫生的启示
将AI整合到MetS护理中可能提供有意义的机会来增强早期检测和风险分层。然而,将算法性能转化为临床实用性需要战略性实施。将AI工具嵌入可互操作的EHR和国家筛查倡议对于可扩展性至关重要。为促进临床采用,临床医生培训必须侧重于解释AI输出,辅以去神秘化模型逻辑的可解释性功能。此外,遵循SAMPL指南,临床实践应转向报告实际比例和精确度估计,以确保AI驱动决策基于稳健统计证据。必须系统解决伦理考虑,包括数据隐私、获取公平性和算法偏倚缓解,以确保AI成为公平、主动的慢性病管理的基石。
4.3 未来研究方向
为实现AI在MetS护理中的全部公共卫生潜力,未来研究必须从试点研究转向高级别证据。遵守标准化报告协议,如TRIPOD-AI和PROBAST-AI,对于确保方法学严谨性至关重要。进行随机对照试验(RCTs)对于确定AI辅助干预是否比标准护理带来可测量的临床结局改善至关重要。此外,全面的卫生经济学分析,特别是在资源有限的环境中,对于评估成本效益和指导全球政策至关重要。未来研究应优先开发可解释和可解释的模型,以获得监管批准和临床信任。最后,将验证工作扩展到多民族和多中心人群将有助于加强泛化性,并为设计公平、AI驱动的医疗解决方案提供信息。
5 结论
本系统综述揭示,AI和机器学习有望通过利用非侵入性、常规收集的变量改善MetS的诊断和早期风险预测。然而,应用仍高度集中在诊断任务上,在长期管理、个性化预防和行为干预方面存在显著缺口。证据表明,AI尚未成熟到可以独立用于临床或常规预防策略。为取得进展,未来研究必须优先考虑多民族和多中心验证以增强全球泛化性,并持续遵守更新的标准化框架如TRIPOD+AI和PROBAST+AI,以确保方法学严谨性和政策相关性。解决这些局限性,特别是诊断饱和与预防重点工作不发达之间的不平衡,对于AI通过公平、主动和以患者为中心的护理有意义地减少全球MetS负担至关重要。