注意力增强型混合 CNN–ViT 框架用于基于担孢子显微图像的选定大型真菌属水平分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Applied Sciences》：Attention-Enhanced Hybrid CNN–ViT Framework for Genus-Level Classification of Selected Macrofungi from Basidiospore Micrographs

【字体：大中小】 时间：2026年06月19日 来源：Applied Sciences 2.5

编辑推荐：

　　支持大型真菌属水平预分类的快速且可复现图像分析方法的开发，对于分类学预评估与受控显微数据分析具有重要意义。本研究严格评估了一种先进的基于深度学习的方法，即注意力增强型混合 CNN–ViT 框架，用于基于5个经审慎选择的大型真菌属的担孢子显微图像开展属水平分类。

支持大型真菌属水平预分类的快速且可复现图像分析方法的开发，对于分类学预评估与受控显微数据分析具有重要意义。本研究严格评估了一种先进的基于深度学习的方法，即注意力增强型混合 CNN–ViT 框架，用于基于5个经审慎选择的大型真菌属的担孢子显微图像开展属水平分类。该方法整合了卷积神经网络（CNN）识别局部纹理与轮廓模式的能力，以及视觉Transformer（ViT）结构对全局上下文进行建模的能力。其目标是通过特征融合与注意力机制，增强对显微孢子图像中鉴别性表征的提取。研究人员在一个经整理的数据集上开展了一系列实验，该数据集由Agaricus、Hebeloma、Inocybe、Amanita和Russula 5个属的光学显微图像构成。模型比较采用了多种评估指标，包括准确率、F1值、Matthews相关系数（MCC）、受试者工作特征曲线（ROC）下面积（AUC）以及精确率-召回率曲线（PR）下面积（AUC）。结果表明，InceptionV3 + ViT-B16 + Fusion 配置是表现最优的混合模型，其准确率为0.9213 ± 0.0182，F1值为0.9212 ± 0.0179，Matthews相关系数（MCC）为0.9040 ± 0.0222，ROC-AUC为0.9896 ± 0.0069，PR-AUC为0.9684 ± 0.0192。当前结果表明，在受控条件下，担孢子图像可携带用于属水平自动分类的鉴别性视觉信息。然而，需要强调的是，这些结果不应被解读为对种水平鉴定或野外泛化能力的主张。这是因为本研究仅采用了单一显微镜-相机系统、单一制片方案，且缺乏独立外部测试集。本研究表明，基于深度学习的显微图像分析可被评估为大型真菌分类学中的一种初步分类工具。同时，该研究也显示，此类工具可为后续结合标本水平验证、外部测试集以及不同成像方案的研究奠定基础。

该文发表于《Applied Sciences》，围绕大型真菌分类学中担孢子显微图像的自动识别问题，构建并评估了一种注意力增强型混合 CNN–ViT 深度学习框架，目标并非替代经典分类学鉴定流程或分子分类学，而是在受控显微条件下验证担孢子这一关键微形态学性状是否能够承载足够稳定且可计算的属水平判别信息。研究背景在于，真菌系统学并不是单纯依据外部形态进行命名，而是需要综合野外观察、宏观形态、微形态特征、生态关系、宿主或基质信息、馆藏材料以及必要时的分子数据进行整体判断。对于大型真菌而言，菌盖、菌褶、菌柄、表面结构、色泽变化和生态环境虽然可用于初步区分，但在近缘属和近缘种类群之间常存在明显重叠，并且会受到环境条件影响，因此仅凭宏观性状往往难以实现稳定鉴定。

在担子菌门（Basidiomycota）系统学中，孢子大小、形态、壁厚、色素沉积、表面纹饰、顶端结构、萌发孔、周孢层有无及化学反应等微形态学特征被视为重要诊断依据。尤其在伞菌型大型真菌中，担孢子是属水平区分中最常被观察且相对稳定的结构之一。然而，论文同时指出，孢子性状本身并不足以解决全部分类学问题，在种及物种复合群的鉴别中，往往还需要更多微形态指标、化学反应和分子验证。Agaricus、Hebeloma、Inocybe、Amanita 与 Russula 这些属具有较高物种多样性，且部分微形态特征相互重叠，例如弱疣状的 Hebeloma 孢子在光学显微镜下可能与 Inocybe 孢子表面近似，而 Amanita 与 Russula 在某些制片条件下又可能呈现相似的光学色调。因此，如何在受控条件下通过图像分析实现稳定的属水平预分类，成为开展本研究的现实动因。与此同时，尽管ITS（内部转录间隔区）条形码等分子方法已显著提升真菌鉴定准确性，但其需要专门实验条件、参考数据库和额外成本，使得基于形态与图像的辅助方法仍具有应用价值。正是在这一背景下，研究人员尝试评估深度学习在担孢子显微图像自动预分类中的潜力。

在技术路线方面，研究人员基于50份生物学标本构建了一个包含1601张担孢子显微图像的数据集，来源于5个大型真菌属，每属10份标本，并预留每属2份标本构成独立holdout测试集。全部图像均来自统一的5% KOH 制片方案、Leica DM500 光学显微镜和 Leica ICC50 HD 数码相机。方法上先比较多种卷积神经网络（CNN）与视觉Transformer（ViT）单模型表现，再选取最优 CNN 主干 InceptionV3 与 ViT-B/16 并行构建混合架构，通过瓶颈式特征融合（bottleneck fusion）压缩 2816维联合特征至512维，并引入挤压-激励（SE，通道注意力）机制进行重加权；模型训练采用基于标本分组的3折分层组K折交叉验证，以避免图像层面的数据泄漏，并使用独立holdout测试集完成最终评估。

论文主体首先在“4.1. Performance of Individual Models (Baseline Analysis)”中比较了不同深度学习架构的单模型表现。研究人员分别在不使用迁移学习和使用ImageNet预训练权重两种条件下，对ResNet18、InceptionV3、MobileNetV2、VGG16、DenseNet121、EfficientNetB0、ViT-B/16和ViT-Tiny进行评估。结果显示，在不使用迁移学习时，ViT-B/16整体表现最好，提示Transformer结构在从显微孢子图像中学习长程结构关系方面具有潜力；DenseNet121是无迁移学习条件下最强的CNN模型。与此同时，VGG16、MobileNetV2和EfficientNetB0表现较差，部分结果接近五分类任务中的随机预测水平。使用迁移学习后，所有模型性能均明显提升，说明预训练视觉表征对小样本显微图像任务极为重要。在这一条件下，InceptionV3 获得最高准确率，并在F1-Macro与MCC等关键指标上表现最均衡，因此被选为后续混合模型的CNN主干；DenseNet121紧随其后，而ViT-B/16虽有较高AUC，但在整体分类表现上不及最优CNN模型。该部分结果说明，在当前数据规模下，局部纹理与形态细节的学习对担孢子图像分类尤为关键。

在“4.2. Proposed Hybrid Fusion and Attention-Based Classification Architecture”中，研究人员详细介绍了所提出的混合分类架构。该模型以InceptionV3负责局部微形态模式学习，以ViT-B16负责全局上下文关系建模，两条支路并行提取特征后，将2048维CNN特征与768维ViT特征拼接为2816维联合表示。与直接分类不同，研究人员设计了瓶颈融合模块，先经批标准化（Batch Normalization）与Dropout正则化，再线性投影至512维，从而形成更加紧凑且更具判别力的公共特征空间。之后再利用SE注意力机制生成通道权重，以强化对分类更重要的形态特征。该部分的核心结论是，论文的创新点不在于简单串联CNN与Transformer，而在于通过针对性的融合机制实现异质特征空间的有效整合。

在“4.3. Evaluation of the Best-Performing Hybrid Model Across Three Folds”中，研究人员报告了最优混合模型 InceptionV3 + ViT-B16 + Fusion 在3折验证与holdout测试中的表现。结果表明，该模型在各折间均保持较高且稳定的性能，平均准确率达到92.13 ± 1.85%，F1-Macro为92.11 ± 1.81%，MCC为0.9040 ± 0.0222，AUC-Macro与PR-AUC Macro也分别达到0.9895和0.9684左右。Fold 3 的阈值相关指标最高，说明模型在未见生物学标本上的分类能力较强。训练曲线显示，模型在早期很快拟合训练集，训练准确率迅速接近100%，但验证准确率在较高水平波动，提示存在一定过拟合倾向。损失曲线亦表现出训练损失持续降低而验证损失后期波动上升的模式。尽管研究人员通过早停（early stopping）和选择最佳验证轮次权重减轻了这一影响，但仍将过拟合作为重要局限加以强调。这一部分的结论是，混合模型在受控条件下具有很高判别力，但其性能解释必须结合数据集规模、分组验证策略和标本间自然变异共同考量。

在“4.4. ROC and Precision-Recall Curve Analysis”中，论文进一步从类别层面分析了模型判别能力。ROC曲线显示所有属的曲线均接近左上角，Agaricus 的AUC达到1.000，Amanita、Hebeloma、Inocybe 和 Russula 也分别达到0.991、0.994、0.994和0.981，说明模型在多类别区分中具有极高的阈值无关判别能力。PR曲线同样显示全部类别均维持较高精确率和召回率，PR-AUC全部超过0.94，其中Agaricus 为1.000，Hebeloma 与 Inocybe 亦接近0.98。Russula 和 Amanita 的PR表现略低，与后续混淆矩阵中的类别混淆相一致。该部分结果说明，瓶颈融合后的混合表征不仅提高了总体准确率，也改善了多类别概率输出的可靠性。

在“4.3”与“4.4”关联的混淆矩阵分析中，研究人员指出模型对Agaricus和Amanita实现了100%正确分类，而主要错误集中在Hebeloma 与 Inocybe 之间，以及Russula 与 Amanita 之间。前一类混淆被解释为两属担孢子在大小、轮廓和表面特征上的相似性；后一类混淆则与某些制片条件下的光学色调接近和形态重叠有关。这说明模型的错误并非无规律出现，而是与真菌分类学中原本就存在的微形态相似性相呼应，从侧面提升了结果的生物学可解释性。

在“4.5. Ablation Study”中，研究人员系统比较了 InceptionV3、InceptionV3 + ViT-B16、InceptionV3 + ViT-B16 + Fusion、InceptionV3 + ViT-B16 + Attention 和 InceptionV3 + ViT-B16 + Fusion + Attention 等配置，以分析各模块贡献。结果表明，仅加入ViT-B16并未提升性能，反而较基础InceptionV3略有下降，说明不同模型特征若缺乏有效整合，并不会自然形成互补优势。单独加入Attention可带来一定提升，但最佳结果来自 InceptionV3 + ViT-B16 + Fusion，其准确率、F1-Macro、MCC、ROC-AUC和PR-AUC均为最优。值得注意的是，同时使用Fusion和Attention并未进一步提高主要分类指标，提示在当前数据规模与结构下，额外注意力重加权可能带来冗余甚至干扰。该部分是全文最关键的实证结论之一：性能提升的主要来源不是简单引入Vision Transformer，而是通过适当的瓶颈式融合策略有效整合CNN与Transformer特征。

在“4.6. Exploratory Statistical Analysis”中，研究人员采用Friedman检验和Wilcoxon符号秩检验对模型差异进行探索性统计分析。由于实验设计以标本为单位进行3折分组，每个模型仅有3个独立fold结果，因此统计功效有限。结果显示，各项指标在95%置信水平下均未达到统计学显著差异。论文明确指出，这不应被解释为模型间完全等效，而应理解为当前样本量和fold数量不足以高置信度识别真实差异。此处的意义在于，作者对统计结果保持审慎解释，避免了过度宣称。

在“4.7. Grad-CAM-Based Visual Explainability Analysis”中，研究人员利用Grad-CAM对模型决策依据进行可视化。正确分类样本的高响应区域主要集中在孢子簇、孢子轮廓、表面结构和纹饰分布区域，说明模型关注的是具有分类学意义的微形态区域，而不是背景噪声或随机模式。错误分类样本则呈现激活区域分散、聚焦单个孢子或部分背景的现象，提示当孢子密度较低或形态相近时，模型更容易依赖不够稳定的特征。该结果支持了模型学习到真实微形态信息的判断，同时也揭示了类别混淆的潜在视觉原因。

讨论部分综合指出，本研究证明了基于深度学习的显微图像分析可作为大型真菌分类学中的辅助性属水平预分类工具。与既往主要聚焦宏观子实体图像或其他真菌微观结构的研究相比，本文在受控实验框架下专门评估了担孢子显微图像的自动分类潜力。研究同时强调，该工作并不构成可直接用于食品安全、生态监测或毒菌识别等实际场景的成熟系统，因为数据集仅覆盖5个属，全部图像来自单一显微镜-相机系统与单一制片流程，且外部独立验证仍然缺失。此外，多张图像源自同一标本，也意味着它们不能被视为完全独立的生物学观察。未使用数据增强可能加剧了训练中的过学习倾向，统计比较也仅具探索性。

结论部分可概括为：在受控显微条件下，担孢子图像包含可用于大型真菌属水平自动分类的鉴别性视觉信息；以InceptionV3 和 ViT-B16 为核心、通过瓶颈式特征融合整合局部与全局表征的混合模型，可在所构建数据集上取得较高且稳定的分类性能；然而，这些结果不应被外推为种水平鉴定结论，也不应被视为对真实野外环境泛化能力的证明。论文的重要意义在于，为大型真菌分类学中的显微图像智能分析提供了一个方法学基础，表明受控条件下的深度学习预分类具有可研究性，并为未来结合更大标本规模、不同实验室成像协议、外部测试集、化学试剂信息以及分子验证的数据融合研究提供了方向。

联系信箱：

粤ICP备09063491号

热点排行