LeafVision：用于植物病害分类的自主监督农业视觉基础模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：LeafVision: Self-supervised agricultural vision foundation models for plant disease classification

【字体：大中小】 时间：2026年04月07日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　针对植物病害诊断中数据稀缺和通用预训练模型效果不佳的问题，本文提出LeafVision自监督农业视觉模型，基于540,013张植物叶片图像预训练，实验表明DINO方法在数据稀缺场景下显著优于ImageNet预训练模型，有效捕捉疾病特征。

韩云硕|全宇桑|金泰亨|钟秀

首尔国立大学生物系统工程系，韩国首尔冠岳区冠岳路1号，08826

摘要

由于数据稀缺以及通用预训练模型在农业应用中的局限性，植物疾病诊断面临重大挑战。虽然ImageNet预训练模型被广泛用于迁移学习，但它们往往无法捕捉到准确进行植物疾病分类所需的细微视觉特征。我们提出了LeafVision，这是一个在来自多种公开来源的540,013张植物叶片图像上预训练的自监督农业视觉基础模型。我们在数据稀缺的条件下，评估了三种著名的自监督学习方法——简单对比学习框架（SimCLR）、自举潜在特征（BYOL）和无标签自蒸馏（DINO）——这些方法适用于包括残差网络（ResNets）、EfficientNets和视觉变换器（ViTs）在内的多种骨干架构。我们的结果表明，在所有测试的架构和数据集中，DINO预训练的LeafVision模型始终优于ImageNet预训练的模型，尤其是在数据极度稀缺的情况下表现更为出色。通过特征可视化和显著性映射的定性分析发现，LeafVision学习了更具区分性的表示，形成了分离良好的特征簇，并关注了生理上有意义的叶片区域。这些发现验证了领域特定预训练在农业计算机视觉中的有效性，并展示了LeafVision在标记数据有限的环境中推进精准农业技术的潜力。

引言

深度学习在农业计算机视觉任务中取得了显著的成功，包括植物疾病诊断、害虫检测和作物监测。深度学习的关键优势在于它能够从原始数据中自动学习出区分性特征表示，从而消除了传统图像处理技术所需的手动特征工程（Kamilaris和Prenafeta-Boldú，2018；LeCun等人，2015；Jing和Tian，2019）。特别是卷积神经网络（CNNs）和视觉变换器（ViTs）已成为农业视觉任务的标准架构（He等人，2015；Dosovitskiy等人，2021）。最近的研究在农业基准数据集上取得了卓越的性能（Hossen等人，2025；Chiu等人，2020），使得从疾病诊断到产量预测等任务的精准农业实现了自动化监测和决策支持（Kalaivani等人，2025；Borhani等人，2022；Reedha等人，2022）。

然而，这种卓越的性能在很大程度上依赖于大规模、精心策划的数据集（Wei等人，2024；Li等人，2023）。在农业应用中获取高质量的标记数据在多个维度上存在重大挑战。准确的注释需要丰富的领域专业知识，因为区分细微的疾病症状或生长阶段需要专门的知识，而这些知识并不容易获得（Jin等人，2023；Isinkaye等人，2024）。农业数据收集的时间和空间变异性增加了复杂性（Souza等人，2025；Adeosun等人，2022），因为疾病在不同季节、生长阶段和环境条件下的表现不同（Yan等人，2023），这需要多样化的采样策略（Valente等人，2024）。专家注释的成本和时间投入相当大，尤其是对于需要强大模型训练的大规模数据集（Li等人，2023；Sambana等人，2025）。此外，由于检疫规定、地理限制或疾病爆发的偶发性，获取患病样本可能受到限制（Ristaino等人，2021）。

为了解决植物疾病诊断中的数据稀缺问题，研究人员探索了几种方法。从ImageNet等大规模数据集预训练的模型进行迁移学习已成为主要策略（Russakovsky等人，2015），利用从通用视觉任务中学到的知识。半监督学习方法也被研究用于利用丰富的未标记农业数据和有限的标记样本，旨在减少注释需求以提高模型性能（Li和Chao，2021；Liu等人，2024）。还提出了领域适应技术，以弥合数据丰富的源领域和标记有限的目标农业领域之间的差距（Argüeso等人，2020；Fuentes等人，2021；Wu等人，2023；Jeon等人，2025）。此外，一些研究探索了使用生成模型来增强有限的真实世界数据集，尽管这些方法通常难以捕捉农业图像中固有的细微变化（Cap等人，2020；Muhammad等人，2023；Wang等人，2025）。

尽管付出了这些努力，但大多数方法仍然基于在ImageNet或类似通用数据集上预训练的模型，这些模型存在自然图像与农业图像视觉特征不匹配的问题。农业图像的特点是细微的、细粒度的区别，这与从通用数据集中学到的以对象为中心的特征有显著不同（Xu等人，2022；Joshi等人，2023）。我们通过在PlantVillage（Geetharamani和Arun Pandian，2019）数据集上的实验实证了这一限制，其中ImageNet预训练的模型在数据稀缺的情况下表现始终不如随机初始化的模型（图1）。特别是在数据最稀缺的情况下（即每个类别只有5张训练图像），随机初始化的模型实现了大约75%的F1分数，而ImageNet预训练的模型仅实现了71%。这一结果突显了当领域特征不对齐时的负面迁移效应。

鉴于现有方法的这些根本限制，自监督学习（SSL）范式提供了一个有前景的替代方案，它直接从未标记的数据中学习表示（T. Chen等人，2020；Grill等人，2020；Caron等人，2021）。这种方法特别适合农业应用，因为在农业应用中未标记的植物图像丰富且易于获取，而专家注释仍然昂贵且耗时。通过利用大量的领域特定未标记数据，自监督方法可以学习到与农业相关的特征，捕捉植物疾病诊断任务中固有的细微视觉特征。SSL的最新进展在各个领域展示了显著的成功，表明模型可以通过解决旨在捕捉底层数据结构的伪装任务来学习有意义的表示。

基于这一潜力，我们提出了LeafVision，这是一个在大量领域特定未标记图像上预训练的自监督农业视觉基础模型，用于植物疾病诊断。我们的方法利用来自多种公开来源的540,013张植物叶片图像通过SSL学习农业特定的表示。我们评估了三种著名的SSL方法——简单对比学习框架（SimCLR）（T. Chen等人，2020）、自举潜在特征（BYOL）（Grill等人，2020）和无标签自蒸馏（DINO）（Caron等人，2021），以确定最适用于农业应用的方法。为了验证其实际应用性，我们在每个类别只有5到30张标记图像的数据稀缺条件下评估了性能，模拟了专家注释有限的真实世界农业场景（图2）。所有预训练模型都公开提供，以便重现和未来的研究¹。本工作做出了以下贡献：

大规模植物疾病数据集的策划：我们编译并预处理了一个全面的植物疾病诊断数据集，包含来自公开来源的540,013张图像，涵盖了35多种植物物种的132多种植物-疾病组合。我们的领域特定集合在各种植物疾病诊断任务中实现了更好的性能。
•
SSL方法的全面评估：我们系统地评估了多种SSL方法在LeafVision预训练中的表现，并证明我们的领域特定方法在数据稀缺条件下始终优于ImageNet预训练的模型。
•
在最少标记数据下的稳健性能： LeafVision预训练模型在数据稀缺条件下（例如每个类别只有5张标记图像）在多种植物疾病诊断任务中实现了高分类准确率，证明了其在标记数据有限的真实世界农业场景中的实际应用性。通过可视化技术的定性分析确认，我们的模型关注了生物学上相关的植物特征。

方法

在本节中，我们描述了构建LeafVision和训练用于植物疾病诊断的自监督表示的总体方法。首先详细介绍了数据集构建和预处理流程，然后介绍了SSL目标——SimCLR、BYOL和DINO——最后描述了每个SSL目标的预训练配置。

实验评估

在本节中，我们对LeafVision在数据稀缺和数据丰富两种情况下的预训练进行了全面的实验评估。以下小节介绍了下游数据集和任务，以及实验设置和评估指标。

结果与讨论

我们现在展示LeafVision的主要实验结果，并讨论了推动观察到的收益的关键因素。这包括SSL目标的选择、骨干架构的选择、在不同标签预算下的真实世界作物特定设置，以及在数据丰富条件下的性能。我们进一步通过表示级别的可视化来补充定量结果，以解释LeafVision如何重塑特征空间。

结论

我们提出了LeafVision，这是一个在来自多种公开来源的540,013张植物叶片图像上预训练的自监督农业视觉基础模型。通过解决通用预训练的固有局限性，LeafVision提供了一个专门的特征框架，有效地捕捉了不同物种农业诊断所需的细微病理线索。我们的全面评估展示了几个关键结果。使用自监督方法训练的模型

CRediT作者贡献声明

韩云硕：撰写——原始草稿、可视化、软件、方法论、调查、数据策划。全宇桑：撰写——审阅与编辑、可视化、验证、软件、方法论、调查。金泰亨：撰写——审阅与编辑、监督、项目管理、方法论、资金获取、概念化。钟秀：调查、验证、撰写——审阅与编辑。

代码可用性

本研究中使用的训练代码基于每种自监督学习方法在原始作品中提供的官方实现。本研究中开发的预训练LeafVision模型可在https://github.com/LABA-SNU/LeafVision公开获取。

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了ChatGPT-4o和Claude Sonnet 4来协助英语翻译和润色。使用这些工具/服务后，作者根据需要审查和编辑了内容，并对发表文章的内容负全责。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

这项工作部分得到了首尔国立大学的新教师创业基金和创意先锋研究人员计划的支持。这项研究还得到了以下项目的支持：韩国食品、农业和林业技术规划与评估研究所（IPET）通过农业和食品融合技术研发人才计划（RS-2024-00398300）；贸易部资助的技术创新计划

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作