评估卷积神经网络在拉丁美洲和撒哈拉以南非洲地区糖尿病视网膜病变检测的泛化能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information》：Evaluating the Generalisability of Convolutional Neural Networks for Diabetic Retinopathy Detection in Latin America and Sub-Saharan Africa

【字体：大中小】 时间：2026年06月11日 来源：Information 2.9

编辑推荐：

　　糖尿病视网膜病变（DR）是全球视力丧失的主要原因之一，尤其影响医疗资源有限的低收入和中等收入国家的人群。通过自动化筛查系统进行早期检测对于改善预后至关重要，因为及时干预可预防严重视力损伤。然而，大多数现有的人工智能（AI）模型尚未在资源匮乏环境中得到评估。因此

糖尿病视网膜病变（DR）是全球视力丧失的主要原因之一，尤其影响医疗资源有限的低收入和中等收入国家的人群。通过自动化筛查系统进行早期检测对于改善预后至关重要，因为及时干预可预防严重视力损伤。然而，大多数现有的人工智能（AI）模型尚未在资源匮乏环境中得到评估。因此，本研究评估了先进深度学习架构在不同人群数据集中检测可转诊糖尿病视网膜病变（rDR）的有效性。采用双阶段验证方法来评估模型性能。内部验证使用巴西多标签眼科数据集（BrSET）建立基线性能指标，而外部验证则在多模态非洲视网膜图像数据库（MoDRIA）上进行，该数据库包含多种条件和人口统计特征，以评估模型稳健性。系统记录并分析了关键性能指标，包括准确率、特异度、灵敏度、F1分数和校准分数。内部验证显示所有模型均具有高准确率，EfficientNetB0达到了最高的分类准确率（0.9561；95% CI 0.9490–0.9630），EfficientNetB3表现出最优的整体判别性能，取得了最高受试者工作特征曲线下面积（AUROC）（0.9892；95% CI 0.9841–0.9934）、最高灵敏度（0.9573）和最低Brier分数（0.0168）。同时，DenseNet展现出最平衡的临床筛查性能，取得了最高F1分数（0.7259；95% CI 0.6797–0.7669）和约登指数（0.2381），表明灵敏度与特异度之间的平衡得到改善。相比之下，外部验证显示所有架构的模型性能均显著下降，凸显了跨人群泛化能力的主要局限。尽管EfficientNetB0取得了最高外部准确率（0.8821；95% CI 0.8746–0.8898），但各模型的AUROC值显著下降（0.5140–0.6104），伴随灵敏度差、F1分数降低以及严重的校准不稳定性。EfficientNetB3取得了最高外部灵敏度（0.5939），而校准分析显示在领域偏移条件下概率估计不可靠。这些发现表明，基于地理同质性视网膜成像数据集训练的AI模型可能无法在代表性不足的人群中可靠泛化。人群差异和成像变异性显著影响了外部模型性能，强调了在AI驱动的DR筛查系统临床部署之前，需要多样化数据集、严格的外部验证和自适应重校准。

**论文解读：评估卷积神经网络在拉丁美洲和撒哈拉以南非洲地区糖尿病视网膜病变检测的泛化能力**

### 研究背景与问题
糖尿病视网膜病变（DR）是全球可预防性失明的主要原因之一，影响约2.83亿糖尿病患者，其中超过40%的患者未被诊断，尤其在撒哈拉以南非洲（SSA）等低收入和中等收入国家（LMICs）更为突出。早期检测可预防高达95%的视力损失，但资源匮乏地区缺乏系统性筛查项目，现有筛查依赖于人工分级，存在高变异性和低扩展性的问题。人工智能（AI），特别是卷积神经网络（CNN），在自动DR筛查中已取得与专家相当的诊断性能，但大多数模型基于欧洲、中国和美国的数据集训练，缺乏全球人群多样性，导致泛化能力受限。模型偏差可能加剧医疗不平等，且缺乏严格的外部验证。因此，本研究系统验证了多种先进CNN架构在拉丁美洲和SSA视网膜数据集上检测可转诊糖尿病视网膜病变（rDR）的泛化能力，纳入校准分析、亚组评估和成像设备变异性，以评估资源受限环境下的临床可靠性和可迁移性。论文发表在《Information》。

### 关键技术方法
研究人员采用双阶段验证设计：内部验证使用巴西多标签眼科数据集（BrSET，含16,266张黄斑中心眼底图像，来自8,524名患者，三级转诊中心），外部验证使用多模态非洲视网膜图像数据库（MoDRIA，来自乌干达和肯尼亚14个临床站点，共5,867张彩色眼底图像，2,933名参与者）。评估了六种CNN架构：ConvNeXt、Inception-v3、DenseNet-121、ResNet-50、EfficientNet-B0和EfficientNet-B3。预测任务为二分类：非可转诊DR（国际临床糖尿病视网膜病变分级0-1级）与可转诊DR（ICDR 2-4级）。采用AdamW优化器、加权二元交叉熵损失结合焦点损失、类特异性差异减少正则化，以及分层5折交叉验证。外部验证集完全独立，未参与训练或超参数选择。

### 研究结果
**3.1 内部验证**
通过约登指数确定阈值，内部验证显示所有模型准确率超过0.93。EfficientNetB0取得最高准确率（0.9561；95% CI 0.9490–0.9630）。EfficientNetB3取得最高AUROC（0.9892；95% CI 0.9841–0.9934）、最高灵敏度（0.9573）和最低Brier分数（0.0168）。DenseNet取得最高F1分数（0.7259；95% CI 0.6797–0.7669）和约登指数（0.2381），表明灵敏度与特异度平衡最佳。校准分析显示Brier分数低（0.0168–0.0209），但校准斜率>1且截距非零，提示存在适度失校准，期望校准误差（ECE）较高，表明概率估计不完美。

**3.2 外部验证**
外部验证中，所有模型性能显著下降。EfficientNetB0取得最高准确率（0.8821；95% CI 0.8746–0.8898），但灵敏度极低（0.1502）。EfficientNetB3取得最高AUROC（0.6104；95% CI 0.5806–0.6380）和最高F1分数（0.1571）。ConvNeXt的准确率降至0.5142，AUROC仅0.5425。混淆矩阵显示多数模型偏向预测多数类（非可转诊DR），导致灵敏度差。校准指标恶化，Brier分数范围0.0689–0.1048，ECE值0.7485–0.8569，表明领域偏移下概率估计不可靠。

**3.3 亚组分析**
内部亚组分析：年龄<60岁组中ConvNeXt AUROC达0.9960，DenseNet 0.9930；年龄≥60岁组性能下降，ConvNeXt仍为0.9837。成像技术方面，佳能CR系统下模型AUROC一致（~0.987）。外部亚组分析：年龄<60岁组ConvNeXt AUROC骤降至0.5298；年龄≥60岁组略改善（ConvNeXt 0.6602）。3nethra经典成像系统外部AUROC仅0.5602，与佳能系统差异显著，归因于图像质量、分辨率和色彩准确性差异。

### 讨论与结论
讨论指出，内部验证的高性能与外部验证的显著退化形成对比，证实了模型在受控环境与真实场景间的泛化鸿沟。模型在外部验证中准确率看似较高，但灵敏度低下，表明在高度不平衡数据集中准确率会高估临床效用。校准分析显示所有模型在外部验证中均出现严重失校准，预测概率不可靠。亚组分析进一步揭示人口统计学差异（BrSET平均年龄57.66岁 vs. MoDRIA 42.82岁）和疾病分布差异（增殖性DR从2.42%升至6.55%）导致领域偏移，成像设备差异加剧性能下降。研究结论强调：基于地理同质性数据集训练的AI模型在代表性不足人群中泛化能力不足，临床部署前需多样化训练数据、严格外部验证、自适应重校准和持续监控。结论部分翻译：本研究旨在评估不同人口统计学和成像模式下DL模型用于DR筛查的性能。内部验证显示先进架构在年轻患者中检测rDR表现优异（AUROC>0.98），但外部验证表明该潜力受限于显著领域偏移。性能下降突显了模型泛化的关键挑战，需在涵盖多样化人口统计学和成像条件的综合训练策略下改进。这些发现为未来研究提供了方向，包括领域自适应方法、前瞻性多国验证和长期部署监测，以确保AI在眼科中的公平性和临床可靠性。

联系信箱：

粤ICP备09063491号

热点排行