基于常规血液和尿液参数的糖尿病视网膜病变风险分层机器学习模型:肾-眼交互作用的启示

《Frontiers in Endocrinology》:A machine learning model for diabetic retinopathy risk stratification using routine blood and urine parameters: insights into kidney-eye crosstalk

【字体: 时间:2026年06月17日 来源:Frontiers in Endocrinology 4.6

编辑推荐:

  研究目的:该研究旨在开发并对外验证一种可解释的机器学习(Machine Learning, ML)模型,利用常规临床生物标志物对糖尿病视网膜病变(Diabetic Retinopathy, DR)进行风险分层,并通过贝叶斯网络(Bayesian Network

  
研究目的:该研究旨在开发并对外验证一种可解释的机器学习(Machine Learning, ML)模型,利用常规临床生物标志物对糖尿病视网膜病变(Diabetic Retinopathy, DR)进行风险分层,并通过贝叶斯网络(Bayesian Network)建模探索临床生物标志物与DR发病机制之间的潜在概率依赖关系及交互通路。研究方法:研究人员整合了美国国家健康与营养检查调查(National Health and Nutrition Examination Survey, NHANES)的数据与一个独立的医院队列(南通市第一人民医院)。采用多阶段特征选择流程(Boruta算法和LASSO回归)识别核心预测因子。八种机器学习算法被纳入基准比较。为超越传统的"黑箱"预测,研究人员将SHAP(SHapley Additive exPlanations)用于个性化可解释性,并与贝叶斯网络有向无环图(Directed sings Network Directed Acyclic Graph, DAG)相结合,以映射所选系统性生物标志物之间的概率依赖结构。研究结果:LightGBM算法优于其他分类器,在外部验证中获得了稳健的受试者工作特征曲线下面积(Area Under the Curve, AUC)为0.841(95%置信区间:0.809-0.862)。研究识别出14项关键常规预测因子,涵盖血糖控制、肾功能和脂质代谢。至关重要的是,通过贝叶斯网络揭示的概率依赖结构呈现出一个层级性的发病拓扑:而非平行关联,潜在的肾功能损伤标志物(尿蛋白、血尿素氮和尿肌酐)和慢性血糖毒性(糖化血红蛋白, HbA1c)成为DR的直接上游依赖驱动因素。这一结构性证据表明了一种与"肾-眼交互作用"假设一致的概率依赖关系。研究结论:研究人员成功部署了一个高性能、非侵入性的LightGBM模型用于早期DR筛查。通过整合预测性机器学习与概率依赖结构,该框架不仅为资源受限环境提供了一个可及的、基于网络的临床决策支持系统(Clinical Decision Support System, CDSS),而且为驱动糖尿病视网膜病变的潜在系统性微血管相互作用提供了初步见解。
该研究发表于《Frontiers in Endocrinology》,聚焦于糖尿病视网膜病变(Diabetic Retinopathy, DR)这一全球范围内致工作年龄人群失明首要原因的微血管并发症。尽管全球DR患病率已超过1.03亿例,且预计到2045年将攀升至约1.6亿例,但现有管理策略仍以抗血管内皮生长因子(Vascular Endothelial Growth Factor, VEGF)治疗、激光光凝术和玻璃体视网膜手术等晚期干预为主,缺乏针对早期病理生理改变的预防性手段。现有筛查方法主要依赖眼底检查及眼底摄影,需专业设备与技术人员,成本高、可及性差,导致美国仅不足60%的糖尿病患者遵循年度眼科检查指南。近年来,人工智能虽在基于图像的DR自动筛查中表现突出,但其对常规结构化实验室数据的预测价值尚未充分确立,且多数模型缺乏严格的外部验证,泛化性存疑。基于此,研究人员旨在构建一个仅依赖常规可及生物标志物、具有高可解释性和临床可部署性的DR风险预测模型,并探索其潜在病理机制。

为开展研究,研究人员采用的主要关键技术方法如下:以NHANES 2005-2018年数据作为模型开发队列(美国国家代表性多阶段概率抽样数据),以南通市第一人民医院眼科连续收治的糖尿病患者作为外部验证队列;通过Boruta算法与LASSO回归组成多阶段特征选择流程,继而设计SHAP全局与个体层面双层解释框架,并结合基于Hill-Climbing算法的贝叶斯网络有向无环图(DAG)进行概率依赖结构分析,最终以Bootstrap重采样(100次迭代)共识网络增强结构稳健性;模型经由网页平台部署为临床决策支持系统。

在研究结果部分,基线特征显示DR患者年龄更大、高血压患病率更高,社会经济地位更低。血糖控制方面,DR组空腹血糖(Fasting Blood Glucose, FBG)、HbA1c及胰岛素相关指数显著升高。肾功能标志物如血尿素氮(Blood Urea Nitrogen, BUN)、血清肌酐、尿肌酐(Urine Creatinine, UCREA)及尿蛋白(PRO)在DR组显著异常。系统性代谢与电解质紊乱亦 evident,包括血清白蛋白、钠、总钙降低,尿酸及碱性磷酸酶升高。复合脂质指标低密度脂蛋白-高密度脂蛋白比值(LDL-to-HDL Ratio, LHR)反映脂质扰动,血压方面DR组收缩压升高而舒张压(Diastolic Blood Pressure, DBP)降低。炎症标志物中性粒细胞-淋巴细胞比值(Neutrophil-to-Lymphocyte Ratio, NLR)、单核细胞-淋巴细胞比值(Monocyte-to-Lymphocyte Ratio, MLR)、系统性免疫炎症指数(Systemic Immune-Inflammation Index, SII)在DR组显著增高。

多变量逻辑回归分析表明,HbA1c升高(比值比Odds Ratio, OR=1.18)、FBG升高(OR=1.02)、胰岛素升高(OR=1.01)及代谢综合征胰岛素抵抗指数(Metabolic Syndrome–Derived Insulin Resistance Index, METS-IR)升高独立关联DR风险;BUN(OR=1.03)、血清肌酐(OR=1.13)及PRO(OR=1.01)显著预测DR,而UCREA呈保护性关联(OR=0.99);电解质与酶学方面,血钾(OR=1.50)和乳酸脱氢酶(Lactate Dehydrogenase, LDH, OR=1.Unknown)升高增加风险,总胆红素(OR=0.76)、血钠(OR=0.97)及DBP(OR=0.99)降低风险。甘油三酯-葡萄糖指数(Triglyceride-Glucose Index, TyG)呈边缘负相关(OR=0.99),LHR未达严格统计学显著性。

特征选择流程中,多阶段交集策略最终确定14项核心预测因子:LHR、血清白蛋白、BUN、血清肌酐、FBG、LDH、血清总胆红素、血钠、血钾、PRO、UCREA、HbA1c、DBP和胰岛素。Bootstrap重采样稳定性分析显示,BUN选择频率100%、PRO为98%、HbA1c为97%、LDH为92%、肌酐90%、FBG为89%、UCREA为86%、白蛋白为81%、胰岛素为79%、钠为74%、DBP为71%、钾为69%、LHR为65%、总胆红素为54%。

模型性能比较中,训练集XGBoost表现最优(AUC=0.990),但基于内部测试集AUC这一预设主标准,LightGBM以AUC 0.849略优于XGBoost(0.845),且校准曲线与决策曲线分析(Decision Curve Analysis, DCA)显示其良好的校准度与临床净效益。外部验证中,LightGBM保持最高AUC(0.841),XGBoost为0.840,KNN为0.789。LightGBM的跨数据集AUC稳定性优于XGBoost(训练集0.946→内部测试0.849→外部验证0.841,对比XGBoost的0.990→0.845→0.840),故被确定为最终模型。

SHAP分析揭示,全局层面LHR、PRO和UCREA为最强风险驱动因素,HbA1c、血钠和总胆红素影响显著;局部层面通过瀑布图实现个体化风险解析。贝叶斯网络有向无环图则呈现出层级性病理拓扑:FBG作为HbA1c的上游驱动因素,HbA1c直接作用于DR;更为关键的是,肾功能损伤标志物PRO、BUN和UCREA成为DR的直接上游依赖节点,受上游血流动力学(DBP)和代谢因素驱动,而非与DR简单平行关联。

在讨论部分,研究人员指出该研究通过将诊断范式从专业影像转向常规实验室生物标志物,解决了全球DR筛查的关键瓶颈。LightGBM模型在内部测试集AUC为0.849、外部验证AUC为0.841,极小性能衰减(ΔAUC=0.008)证明了算法的跨人群稳健性。SHAP分析识别的PRO、UCREA、BUN和血清肌酐等关键驱动因素,与"糖尿病肾-视网膜综合征"或"肾-眼交互作用"概念高度一致——视网膜与肾小球微血管在解剖结构和发育通路上的相似性,使得内皮功能障碍、基底膜增厚和周细胞丢失等病理级联常在高血糖应激下同时累及两个器官。LHR的纳入凸显了致动脉粥样硬化性血脂异常和系统性脂毒性在血-视网膜屏障损害中的作用;LDH作为细胞缺氧和组织损伤的替代标志物,而总胆红素的适度升高则可能通过内源性抗氧化效应提供保护性机制。

针对机器学习"黑箱"难题,SHAP量化特征贡献幅度,而贝叶斯网络有向无环图则映射核心预测因子的层级性发病架构,将慢性血糖毒性和潜在肾功能损伤识别为概率上优势的上游节点汇聚于DR结局。这种双层框架将抽象概率转化为具有生物学合理性的临床智能。网页版临床决策支持系统目前处于内部测试阶段,建议以预测概率0.20作为行动截断值,高于该阈值者考虑优先转诊行视网膜评估。

研究局限性方面,横断面回顾性设计限制纵向因果推断;未测量混杂因素包括精确糖尿病病程、饮食习惯及新型降糖药物(如胰高血糖素样肽-1受体激动剂Glucagon-Like Peptide-1 Receptor Agonist, GLP-1 RA或钠-葡萄糖协同转运蛋白2抑制剂Sodium-Glucose Cotransporter 2 inhibitor, SGLT2i)的使用;种族异质性可能影响模型泛化性,NHANES为多族裔美国人群而外部验证为南通单一中心中国患者;NHANES中糖尿病亚型未能可靠区分,且外部验证队列中糖尿病病程数据不可靠故未纳入最终模型;肾功能标志物在有非糖尿病肾脏病共存时可能不特异反映糖尿病微血管肾损伤。

研究结论翻译如下:总而言之,研究人员建立了一个利用十四项常规临床生物标志物的高度稳健且可解释的糖尿病视网膜病变预测机器学习框架。通过成功地将LightGBM的先进预测能力与SHAP可解释性及贝叶斯网络概率依赖分析相结合,该研究提供了一个可扩展且透明的筛查辅助工具。这种双层分析方法能够准确分层高风险患者,并直观展示与肾-眼交互作用假设一致的概率依赖关系。最终,该工具在初级保健环境中民主化早期糖尿病视网膜病变检测、优化医疗资源分配和推进个性化疾病管理策略方面具有巨大前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号