在细粒度图像分类中平衡准确性和效率：对卷积神经网络（CNN）、视觉变换器（Vision Transformer）以及混合架构的系统性比较

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Plant Systematics and Evolution》：Balancing accuracy and efficiency in fine-grained image classification: a systematic comparison of CNN, vision transformer, and hybrid architectures

【字体：大中小】 时间：2026年06月08日 来源：Plant Systematics and Evolution 1.6

编辑推荐：

　　摘要由于类别间的视觉相似度较高以及类别内的变异性明显，细粒度图像分类在计算机视觉中仍然是一个具有挑战性的问题。在这项研究中，使用Oxford 102 Flowers数据集对卷积神经网络（CNNs）、视觉变换器（ViT）模型和混合架构进行了系统且以架构为中心的比较。该数据集包含10

摘要

由于类别间的视觉相似度较高以及类别内的变异性明显，细粒度图像分类在计算机视觉中仍然是一个具有挑战性的问题。在这项研究中，使用Oxford 102 Flowers数据集对卷积神经网络（CNNs）、视觉变换器（ViT）模型和混合架构进行了系统且以架构为中心的比较。该数据集包含102个视觉上相似的类别，共计8189张图像。本研究并没有提出新的架构或训练策略，而是重点在统一的实验框架下对广泛采用的深度学习范式进行了受控的比较分析。所有模型都在严格控制的实验协议下进行评估，数据划分、预处理和优化设置均保持一致，以减少实验干扰因素并实现架构层面的分析。实验结果表明，在这种基准设置中，大规模的视觉变换器取得了最高的绝对分类性能，其中ViT-L/16的准确率为99.37%，F1分数为99.27%。然而，这种性能伴随着较高的计算成本，包括3.034亿个参数和每张图像27.4毫秒的推理时间。相比之下，在相同的实验条件下，混合架构展现了更优的准确率与效率之间的平衡。值得注意的是，ConvNeXt-V2-Tiny仅需要2790万个参数和不到1毫秒的推理时间，就实现了98.13%的准确率和98.05%的F1分数，其计算复杂度显著较低。传统的CNN架构在这种特定的迁移学习配置下的表现相对较低，平均准确率低于90%，这表明在所评估的设置中，它们在捕捉高度微妙的类别间变化方面可能存在局限性，而不是表明其架构本身存在普遍不足。研究结果表明，最高的分类准确率并不一定对应于最实用的解决方案，尤其是在部署受限的环境中。重要的是，本研究的结论仅限于Oxford 102 Flowers数据集和标准化输入分辨率下的迁移学习情况，不应被解读为普遍的架构优越性声明。通过综合分析准确率、模型大小和推理延迟，本研究为细粒度图像分类的架构权衡提供了结构化且以决策为导向的评估。这些结果为在不同计算约束下选择合适的深度学习架构提供了实用见解，并有助于更细致地理解卷积、基于变换器和混合表示在受控的细粒度基准设置中的表现。

联系信箱：

粤ICP备09063491号

摘要

热点排行