GraphViT：用于准确且可解释的糖尿病足溃疡分类的图集成视觉Transformer

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Science and Technology, an International Journal》：GraphViT: A graph-integrated vision transformer for accurate and explainable diabetic foot ulcer classification

【字体：大中小】 时间：2026年06月02日 来源：Engineering Science and Technology, an International Journal 5.1

编辑推荐：

　　糖尿病足溃疡（Diabetic Foot Ulcers, DFUs）构成了一个关键的全球健康挑战，其中早期且精确的感染和缺血的多类别识别对于防止截肢至关重要。尽管深度学习已经推进了自动化DFU分析，现有模型通常难以同时捕捉全局上下文信息和细粒度局部关系模式，这

糖尿病足溃疡（Diabetic Foot Ulcers, DFUs）构成了一个关键的全球健康挑战，其中早期且精确的感染和缺血的多类别识别对于防止截肢至关重要。尽管深度学习已经推进了自动化DFU分析，现有模型通常难以同时捕捉全局上下文信息和细粒度局部关系模式，这些对于复杂的多类别判别是必要的。为填补这一空白，研究人员提出了GraphViT，一种新颖的混合架构，协同集成了视觉Transformer（Vision Transformer, ViT）和图神经网络（Graph Neural Networks, GNNs）。GraphViT的新颖之处在于其双流推理：ViT骨干网络提取高维全局语义特征，而一个专门的多层GraphConv-GAT模块通过基于图的推理重新解释这些特征。通过将图像嵌入组织成k近邻（k-nearest neighbor）相似图，该模型显式地在语义相关区域之间传播信息，无论其空间距离如何。在DFUC2021数据集上的广泛基准测试表明，GraphViT显著优于最先进的卷积神经网络（CNNs）、Transformers和先前的混合模型，达到了90.36%的准确率和90.27%的F1分数。此外，研究人员引入了一个使用Grad-CAM和LIME的可解释人工智能（Explainable AI, XAI）框架，通过高一致性定位病理区域提供临床透明度。研究结果证实，基于图的推理（graph-based relational reasoning）的渐进集成为准确且可解释的糖尿病足溃疡分类提供了一个优越的范式。

糖尿病足溃疡（Diabetic Foot Ulcers, DFUs）是全球健康的重大挑战，早期且精确的多类别识别（感染和缺血）对防止截肢至关重要。现有深度学习模型（如卷积神经网络CNN和Transformer）存在局限：CNN感受野有限，难以捕捉长距离依赖；Vision Transformer（ViT）虽能建模全局上下文，但缺乏对异质区域间结构化关系的显式建模，限制了复杂多类别判别的能力。为弥补这一空白，研究人员开展了基于图集成视觉Transformer的研究，提出了GraphViT模型。该模型在DFUC2021数据集（来自Lancashire Teaching Hospitals的5955张标注图像）上取得了90.36%的准确率和90.27%的F1分数，显著优于现有CNN、Transformer和混合模型。研究表明，通过将ViT提取的全局特征构建为k近邻图，并利用图神经网络（GNN）进行消息传递，能同时捕捉全局语义和细粒度区域关系。此外，引入Grad-CAM和LIME实现可解释性，提升了临床透明度。论文发表在《Engineering Science and Technology, an International Journal》。

**主要关键技术方法**
研究人员采用预训练Vision Transformer（ViT-Base/16）作为骨干提取高维特征（图像分16×16块，序列长度196，嵌入维度768）；将特征图转换为图（每节点对应一空间位置，通过k近邻策略k=8构建边，基于特征相似度而非空间邻近）；使用两层图卷积（GraphConv）和一层图注意力网络（GAT）进行消息传递，逐步降维至128和64；最后通过全局平均池化和两层MLP（64→32→4）实现四分类（无、感染、缺血、两者兼有）。使用交叉熵损失，AdamW优化器，ViT学习率1×10^-5，其余层3×10^-3，余弦退火调度，训练100轮。

**研究结果**
**4.1 实验设置**：所有实验在AMD Ryzen 9 7950X + Nvidia RTX 4090上运行，使用PyTorch 2.0.1，CUDA 11.8。
**4.2 超参数调优**：通过批量大小32、100轮训练、AdamW优化、区分学习率等设置，保证稳定收敛。
**4.3 消融研究分析**：通过逐步添加图模块，验证了各组件的贡献。ViT基线准确率72.93%，F1 69.24%；加一层GraphConv后增至87.24%和87.08%；两层GraphConv达88.65%和88.51%；三层未显著提升（89.18%，89.02%）；最终两层GraphConv+GAT取得最优90.36%准确率和90.27%F1，表明图推理和注意力机制带来的增量收益。
**4.4 整体模型性能**：在DFUC2021四类上，Both类准确率最高（96.8%），Ischemia类稍低（86.96%），宏平均准确率90.36%，精确率89.89%，召回率90.8%，F1 90.27%。
**5.1 性能指标对比分析**：通过混淆矩阵、ROC曲线、损失曲线和准确率曲线，将GraphViT与11个基线模型（包括AlexNet、VGG16、ResNet50、MobileNetV2、GoogLeNet、Inception、DenseNet121、EfficientNet B2、Xception、Swin Transformer、ViT）对比。混淆矩阵显示GraphViT对角线集中，误分类少；ROC曲线面积最大；损失曲线训练与验证差距小，未过拟合；准确率曲线收敛快且稳定。
**5.2 基于Grad-CAM的类别判别区域可视化**：Grad-CAM热图显示，对于None类激活均匀；Infection类聚焦发红、炎症区域；Ischemia类关注苍白或坏死区域；Both类同时定位两类特征，证明模型定位病理区域的准确性。
**5.3 LIME可视化表示**：LIME图进一步确认模型对正常组织（绿色）和病理组织（红色）的分辨，与Grad-CAM结果一致。
**5.4 与领先深度学习模型的性能比较**：5折交叉验证下，GraphViT准确率91.28%±0.41%，F1 90.40%±0.42%，显著优于最强基线EfficientNet B2（84.74%），Wilcoxon符号秩检验p<0.05，差异显著。
**5.5 与现有方法的性能基准比较**：对比近年方法（如ConMatFormer、ResViT-iPPM、Dense-ShuffleGCANet等），GraphViT准确率最高（90.36%），且唯一同时提供Grad-CAM和LIME可解释性。

**总结讨论与结论翻译**
讨论部分指出GraphViT通过图推理有效强化了临床相关区域的表征，5折交叉验证的低方差证明了泛化稳定性。然而模型仅基于单中心图像数据，样本量有限，且引入计算开销，未来需多中心验证、多模态融合、轻量化设计、分割与严重性分析等。研究结论部分翻译如下：本研究提出了GraphViT，一种用于糖尿病足溃疡（DFU）分类的混合深度学习模型，融合了全局特征提取与基于图的推理。通过结合预训练视觉Transformer（ViT）与多层图卷积-图注意力网络（GraphConv-GAT）模块，该模型能有效捕捉溃疡的整体表现及其病理区域间的细粒度关系。在DFUC2021数据集上的评估显示，模型准确率达90.36%，F1分数为90.27%，优于最先进的CNN、Transformer和混合模型。此外，5折交叉验证结果体现了强大鲁棒性（准确率91.28%±0.41%，F1 90.40%±0.42%），低方差证实了跨不同数据划分的稳定泛化能力。消融研究和可解释人工智能（XAI）分析进一步确认了图推理的重要性，并验证了模型对临床有意义溃疡区域的关注。

联系信箱：

粤ICP备09063491号

热点排行