基于CNN和Transformer特征的双流交叉注意力模型用于多类眼表鳞状细胞瘤（OSSN）分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Access》：Dual-Stream of CNN and Transformer Feature-Based Cross-Attention Model for Multiclass Ocular Surface Squamous Neoplasia (OSSN) Classification

【字体：大中小】 时间：2026年06月01日 来源：IEEE Access 3.6

编辑推荐：

　　有效治疗规划和管理眼表鳞状细胞瘤（OSSN）依赖于裂隙灯图像的早期精确诊断。然而，自动化系统面临的主要障碍是OSSN类别可能出现的多样化表现以及微小的临床差异。尽管深度学习方法（包括混合架构）展现出潜力，但开发精确的多类分类系统的主要障碍仍然是定制单一模型以同

有效治疗规划和管理眼表鳞状细胞瘤（OSSN）依赖于裂隙灯图像的早期精确诊断。然而，自动化系统面临的主要障碍是OSSN类别可能出现的多样化表现以及微小的临床差异。尽管深度学习方法（包括混合架构）展现出潜力，但开发精确的多类分类系统的主要障碍仍然是定制单一模型以同时捕捉精确的局部知识和广泛的全局上下文的挑战。本文提出了双流交叉注意力CNN-Transformer网络（DACTNet），这是一种旨在增强OSSN多类分类的新型混合深度学习模型。DACTNet的交叉注意力模块通过结合CNN和ViT流学习的互补特征，提供了更全面和独特的眼表疾病表示。研究人员使用包含正常、良性、侵袭前和侵袭类别的多类OSSN图像主数据集来评估DACTNet。研究人员将轻量级CNN和ViT模型的个体性能与整个网络的性能进行了对比。根据实验结果，DACTNet在总体准确率、精确率、召回率和F1分数等关键分类指标上优于可比模型，突显了其区分OSSN类别的卓越能力。它在敏感度、精确率和F1分数上超越了当前最先进的模型，准确率达到94%。CCBY - IEEE不拥有本材料的版权。请通过https://creativecommons.org/licenses/by/4.0/ 中的说明获取全文文章和API文档中的规定。

论文解读文章

**研究背景与问题**

眼表鳞状细胞瘤（OSSN）是一系列结膜癌的总称，从轻度上皮异型增生到侵袭性鳞状细胞癌（SCC）。早期精确诊断对有效治疗和管理至关重要，而裂隙灯图像是常用诊断工具。然而，OSSN类别在图像中呈现多样化的外观，且不同阶段之间临床差异微小，这给自动化诊断系统带来了巨大挑战。尽管深度学习方法（包括混合架构）在医学图像分析中展现出潜力，但现有模型难以同时有效捕捉局部细节特征和全局上下文信息，导致多类分类精度不足。具体而言，传统卷积神经网络（CNN）擅长提取局部空间特征，但难以建模长距离依赖关系；视觉Transformer（ViT）虽然能通过自注意力机制捕获全局结构，但易受背景噪声干扰。因此，开发一种能融合两者优势的新型混合模型，以提高OSSN多类分类的准确性和鲁棒性，成为迫切需要解决的问题。

**研究内容与结论**

研究人员提出了一种双流交叉注意力CNN-Transformer网络（DACTNet），旨在增强OSSN的多类分类性能。该模型利用CNN（EfficientNetB0）流提取局部特征，利用ViT流提取全局上下文，并通过交叉注意力融合模块实现两种特征的动态交互与融合。在包含正常、良性、侵袭前和侵袭四个类别的OSSN图像数据集（来自印度Puducherry的Aravind眼科医院，共128张原始图像，经数据增强至800张，其中700张用于训练验证，100张用于独立测试）上进行实验，结果表明DACTNet在总体准确率（94%）、精确率、召回率和F1分数（93.98%）上均优于单独的EfficientNetB0、ViT以及简单的CNN+ViT特征拼接模型。10折交叉验证进一步证实了其稳定性，准确率达94.6%，置信区间（CI）为（92.38, 96.82）。在公开的眼病分类数据集（含4217张视网膜图像）上，DACTNet也取得了91%的准确率，优于基线模型。该研究发表在《IEEE Access》。

**主要关键技术方法**

研究人员采用了以下关键方法：1）数据增强：对原始128张图像（包含正常、良性、侵袭前、侵袭四类）应用几何变换（旋转、缩放、翻转）和光度变换（高斯模糊、噪声、对比度归一化）等13种技术，将训练集扩展至700张，测试集扩展至100张；通过t-SNE（t分布随机邻域嵌入）可视化验证了增强数据的多样性，利用结构相似性指数（SSIM）确保增强图像未过度失真。2）双流架构：CNN流采用EfficientNetB0作为特征提取器（输出1280维局部特征向量），ViT流将图像分割为8×8像素的补丁，通过4个Transformer编码器块处理（输出全局特征向量）。3）交叉注意力融合模块：分别以CNN特征为查询（Query）、ViT特征为键/值（Key/Value）计算交叉注意力，得到CNN增强特征，反之亦然；最终将原始CNN特征、原始ViT特征、两个交叉注意力特征拼接并通过线性投影降维至1536维，输入分类头。4）训练配置：使用AdamW优化器（初始学习率0.0001），交叉熵损失函数，30个epoch，批次大小16，在Google Colab的Tesla T4 GPU（16GB显存）上运行。

**研究结果**

论文在实验部分报告了多项结果，以下保留小标题并说明研究结论：

**A. Performance of DACTNet**
通过混淆矩阵和指标对比，DACTNet在独立测试集（100张图像）上达到94%准确率、93.98% F1分数，优于EfficientNetB0（80%准确率）、ViT（87%准确率）和Hybrid CNN+ViT（90%准确率）。混淆矩阵显示DACTNet对“正常”和“侵袭前”类别实现100%正确分类，仅少量“良性”与“侵袭”类别间存在混淆，表明双流交叉注意力机制有效分离了细微形态学差异。

**B. Performance of DACTNet with 10-Fold Cross-Validation**
采用10折交叉验证（累计1000个预测样本），DACTNet的准确率达94.6%，F1分数94.56%，精确率95.14%，显著优于EfficientNetB0（80.8%）、ViT（87.9%）、Hybrid CNN-LSTM（84.3%）、Hybrid CNN-BiLSTM（89.6%）和Hybrid CNN+ViT（90.9%）。这证明了DACTNet的泛化能力和统计稳健性。

**C. Grad-CAM Visualization**
通过Grad-CAM（梯度加权类激活映射）可视化，DACTNet的激活热图聚焦于病变区域（如异常角化、核质比增高等特征），且受角膜反射等背景噪声影响较小，说明交叉注意力机制使CNN特征得到了Transformer全局上下文的调制，提升了临床相关性。

**D. Statistical Analysis**
基于10折交叉验证计算95%置信区间（CI），DACTNet的CI为（92.38, 96.82），其下限高于其他模型的上限（如EfficientNet-B0为75.51-86.09，ViT为82.13-93.67），表明性能提升具有统计显著性，而非偶然。

**E. Experimental Validation**
在公开眼病分类数据集（Kaggle，4类，4217张图像）上验证，DACTNet准确率91%，优于EfficientNetB0（77.29%）、ViT（89.75%）和Hybrid CNN+ViT（90.25%），说明模型具有良好的跨数据集鲁棒性。

**F. Discussion**
讨论部分强调，DACTNet通过交叉注意力融合模块有效整合CNN的局部细节和ViT的全局意识，相比简单的特征拼接（如Hybrid CNN+ViT）或时序模型（CNN-LSTM/CNN-BiLSTM），能更精确地捕捉OSSN的病理生物标志物。其窄而高的置信区间进一步证实了该机制在提高平均准确率的同时，保证了最高水平的预测确定性。

**研究结论**
论文在结论部分指出：本研究解决了从裂隙灯图像中对眼表鳞状细胞瘤（OSSN）进行早期精确多类分类的关键问题。研究人员提出了一种新型混合深度学习模型——双流交叉注意力CNN-Transformer网络（DACTNet），其核心优势在于独特的交叉注意力模块，该模块有效结合了CNN流的局部高分辨率特征图和ViT流的全局上下文表示，从而提供了更全面和具有判别力的表示，以区分正常、良性、侵袭前和侵袭四个OSSN类别。实验结果明确显示，DACTNet在总体准确率、精确率、召回率和F1分数上均优于独立的CNN和ViT以及特征拼接的CNN-ViT模型。这一性能优势证实了通过交叉注意力整合局部细节和全局上下文是解决此多类OSSN挑战的最佳架构方案。DACTNet作为一种高精度、可靠的自动化诊断工具，能够促进临床决策并实现对眼表疾病的及时处理。考虑到所实现模型的优点，可进一步研究基准迁移学习方法在各种医学和成像应用中的潜力。

联系信箱：

粤ICP备09063491号

热点排行