基于梯度加权类激活映射(Grad-CAM)结合图神经网络(GNN)与视觉变换器(ViT)的结肠镜图像级疾病分类深度学习解析

《Frontiers in Physiology》:Grad-CAM based deep learning analytics for image-level colon disease classification based on graph neural networks and vision transformers

【字体: 时间:2026年05月25日 来源:Frontiers in Physiology 3.4

编辑推荐:

  研究人员针对结直肠疾病早期检测与表征的需求,评估了基于变换器的架构与图神经网络(GNN)在结肠镜图像分类中的表现。研究采用Kvasir V2数据集,设计了两种主要范式:一是选择性微调与学习率调度的视觉变换器(ViT);二是将图像嵌入与多种图构建策略(余弦相似度

  
研究人员针对结直肠疾病早期检测与表征的需求,评估了基于变换器的架构与图神经网络(GNN)在结肠镜图像分类中的表现。研究采用Kvasir V2数据集,设计了两种主要范式:一是选择性微调与学习率调度的视觉变换器(ViT);二是将图像嵌入与多种图构建策略(余弦相似度、k近邻、ε半径图)及多种GNN架构结合的卷积神经网络(CNN)–GNN流程。性能通过准确率、精确率、召回率及宏F1分数进行评估,并使用梯度加权类激活映射(Grad-CAM)进行定性可解释性分析。结果显示,选择性微调的视觉变换器准确率达94.6%,宏F1分数为0.94;最佳图基配置(ViT嵌入+ε半径图+图同构网络(GIN)聚合)准确率为92%,宏F1分数为0.92。研究表明,变换器的全局上下文建模在图像级结肠疾病分类中具有强判别力,而图基关系建模在与高质量嵌入结合时可获得竞争性能。
研究背景方面,结直肠癌仍是全球癌症发病与死亡的主要原因之一,早期检测对提高生存率至关重要。结肠镜检查是筛查的核心手段,但其准确性受操作者经验、肠道准备质量及病灶细微程度影响,且在医疗资源有限地区难以普及。人工智能辅助诊断可提高检测一致性并减少漏诊,但传统卷积神经网络(CNN)在捕捉图像间关系依赖及全局上下文理解方面存在局限。为此,研究人员在《Frontiers in Physiology》发表研究,提出融合CNN、GNN与ViT的混合深度学习流程,以提升结肠镜图像分类的准确性与可解释性。
关键技术方法方面,研究使用公开Kvasir V2数据集,共6000张图像,涵盖六类结肠病变及正常解剖结构,按80:10:10划分训练、验证与测试集。图像预处理采用非锐化掩模与拉普拉斯滤波以增强边缘细节。模型分为两条并行路径:一是基于ViT的分类管线,包括全参数可调基线ViT与选择性微调ViT(冻结低层块,仅训练高层块及分类头);二是CNN–GNN管线,使用MobileNetV2或ViT提取嵌入特征,构建余弦相似度图、k近邻图或ε半径图,并通过GCN、GAT、GraphSAGE或GIN进行节点分类。性能评估采用精确率、召回率、宏F1分数及准确率,并结合Grad-CAM生成热图以可视化模型关注区域。
研究结果方面,5.1 外部验证显示,在EndoVis 2017数据集上的零样本定性评估中,模型在不同光照和解剖背景下仍保持稳定的激活模式,表明特征表示具有一定跨域鲁棒性。5.2 ViT模型性能方面,选择性微调ViT比基线ViT准确率提升约2.2%,达到94.6%,宏F1为0.94,混淆矩阵显示主要误判集中在形态相似的类别(如染色抬举息肉与染色切除缘)。5.3 高容量架构行为分析中,ViT嵌入配合ε半径图与GIN的配置取得最高图基准确率92%、宏F1 0.92;GraphSAGE在相同图结构下亦表现稳定,准确率达90%;余弦相似度图结合GraphSAGE的准确率为91%,并在训练过程中表现出良好收敛性。5.4 与现有研究的比较表明,本研究的ViT与GNN组合在结肠镜图像分类任务中与已有方法相比具有竞争力,且引入了关系建模与全局上下文聚合的优势。5.5 模型可解释性方面,Grad-CAM热图显示模型关注区域与临床相关结构一致,如染色切除缘的过渡区、溃疡性结肠炎的炎症黏膜及正常盲肠的稀疏局部区域,但未进行临床医生验证。5.6 统计显著性分析证实选择性微调ViT的性能提升具有统计学意义(p<0.05)。5.7 局限性包括未进行多中心前瞻性临床验证、计算资源需求较高以及可解释性仍需专家评估。
讨论与结论部分,研究人员指出,表示质量在图学习中比图拓扑更具决定性,ViT的全局上下文聚合显著优于传统CNN特征,而图基方法在高质嵌入下可提供互补的结构推理能力。Grad-CAM提供了空间注意力的一致性证据,但不构成因果解释。该研究的贡献在于在同一实验框架下系统比较了端到端变换器学习与关系图建模的效果,为结肠镜图像分类提供了新的技术参考。未来工作可探索多尺度特征融合、改进图构建策略以及引入临床医生参与的验证流程,以推动在实际医疗环境中的应用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号