一种经过优化的“只需看一眼”模型，用于自然果园环境中多类别苹果的检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：An enhanced you only look once model for multi-class apple detection in natural orchard environments

【字体：大中小】 时间：2026年04月08日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　本研究提出AS-YOLOv8m模型，通过改进跨阶段部分瓶颈模块与空间到深度卷积，增强遮挡与簇状苹果检测能力，并采用WIoU损失函数平衡精度与效率。在9743张苹果图像（含11类标注）上验证，mAP达95.8%，检测速度76.9 fps，模型大小36.2 MB，显著优于现有四类检测方法。

刘晓航|张兆|于江帆|华婉佳|李旭|李涵|张曼|Chayan Kumer Saha

教育部智能农业系统集成重点实验室，北京，100083，中国

摘要

多类别苹果检测可以提高自动苹果采摘机器人的效率。现有研究将苹果分为四种遮挡类型，但在处理聚集的水果时遇到困难，且无法在精度、速度和模型大小之间取得平衡。因此，提出了一种鲁棒的Apple State You Only Look Once版本8中等（AS-YOLOv8m）模型，根据苹果的遮挡和聚集情况将其分为11个类别进行检测。核心创新包括：（i）设计了具有可变形卷积的跨阶段部分瓶颈模块，以增强特征提取和几何变换建模能力；（ii）在主干网络中嵌入了空间到深度卷积模块，以提高小目标检测能力；（iii）移除了大目标检测头，以减小模型大小；（iv）使用智能交并框损失函数（WIoU）来平衡高质量和低质量锚框的损失。该模型使用9,743张苹果图像进行了训练（5,845张）、验证（1,948张）和测试（1,950张），这些图像是从商业果园收集的1,149张原始图像中增强得到的，涵盖了多种光照条件。结果显示，AS-YOLOv8m在11个类别中的平均精度为95.8%，高于4个类别中的95.4%，同时也优于其他比较模型（<95.1%）和先前的研究成果（<91.3%）。检测速度为每秒76.9帧，模型大小为36.2兆字节。凭借其实时能力、小巧的模型大小和高检测精度，AS-YOLOv8m模型成为一种有前景的多类别苹果检测方法，有助于进一步提升机器人的采摘效果和效率。

引言

手动苹果采摘是一个劳动密集型、耗时且成本高昂的过程，由于劳动力成本上升和劳动力减少，这种做法越来越难以持续（Silwal等人，2017；Kang和Chen，2019；Zhang等人，2020a；Chu等人，2021；Verbiest等人，2021；Abeyrathna等人，2023；Divyanth等人，2023；Kok和Chen，2024；Villacrés和Vougioukas，2024）。自动苹果采摘机器人是一种替代的采摘方法，可以完全取代人工劳动，消除职业伤害，提高采摘效率并降低成本（Gené-Mola等人，2019；Chu等人，2021；Abeyrathna等人，2023；Au等人，2023；Liu等人，2024；van de Ven等人，2024）。然而，大多数现有的苹果采摘机器人仍处于概念或原型阶段，尚未进入商业应用阶段（Arad等人，2020；Zhang等人，2022a；Chu等人，2023）。其中一个关键问题在于视觉系统在自然果园环境中检测苹果的效率和准确性（Kuznetsova等人，2020；Lawal，2021；Williams等人，2020），因为成功识别苹果是自动采摘最重要的步骤之一（H?ni等人，2020a；Mazzia等人，2020；Yan等人，2021）。许多因素，如重叠、遮挡、自然光照变化以及树枝、叶子和水果之间的阴影，给苹果检测带来了挑战（Gongal等人，2016；H?ni等人，2020a；Jia等人，2020；Bhattarai和Karkee，2022；Chu等人，2023；Rajendran等人，2023；Villacrés和Vougioukas，2024）。

基于可见图像的苹果检测方法可以分为基于水果特征的机器学习（ML）和数据驱动的深度学习（DL）（Gené-Mola等人，2019；Hu等人，2022；Wang等人，2024）。ML主要利用操作（例如阈值分割、形态学变换、边缘检测和区域生长）对图像进行预处理，然后手动提取苹果的特征，如颜色、纹理、形状和大小（Gongal等人，2015；Liu等人，2024）。提取的特征随后被输入到ML模型中，如支持向量机（SVM）、k最近邻和k均值聚类中进行训练，然后使用训练好的模型进行苹果检测（Zhang等人，2020b；Miranda等人，2023）。然而，这些方法严重依赖于手工制作的特征，这些特征具有高度主观性，适应性差且构建繁琐。因此，它们的应用主要限于特定且受控制的场景（H?ni等人，2020b）。尽管在这些设置中它们可能表现出令人满意的性能，但当数据集或外部环境发生变化时（例如收集图像的光照条件），训练好的模型的预测性能通常较差（Sun等人，2022a；Villacrés等人，2023）。因此，由于鲁棒性和泛化能力有限，ML方法无法满足实际应用的检测需求。

数据驱动的DL方法因其良好的鲁棒性和泛化能力而受到研究人员的广泛关注（Kamilaris和Prenafeta-Boldu，2018；Koirala等人，2019；Saedi和Khosravi，2020；Montoya-Cavero等人，2022；Chen等人，2024）。它们从包含预标记苹果图像的大量数据集中自主获取知识，利用残差结构、注意力机制和多尺度特征融合，通过前向和后向误差传播过程迭代地完善一个鲁棒的检测模型（Kang和Chen，2020；Hu等人，2022；Sun等人，2025；Tao等人，2025）。这些模型包括单阶段（例如单次检测多框检测器（SSD）、You Look Only Once（YOLO）、RetinaNet和全卷积单阶段目标检测网络）和两阶段（例如Faster R-CNN、Mask R-CNN和基于区域的全卷积网络）目标检测网络（Liu等人，2023；Paul等人，2024；Sapkota等人，2024）。然而，这些网络通常难以在检测精度和推理效率之间取得最佳平衡，形成了一个固有的困境：两阶段网络以资源密集和速度慢为代价优先考虑精度，而单阶段网络则经常为了速度牺牲精度。因此，在实际应用中，研究人员需要根据具体需求在这两种架构之间做出选择。然而，无论选择哪种架构，一个更关键的问题仍然存在：大多数现有的DL检测模型将所有目标苹果视为单一类别，这可能会损坏机器人手臂，降低成功抓取率和采摘效率（Gao等人，2020；Lv等人，2022；Yan等人，2022；Sun等人，2022a；Rathore等人，2023）。因此，许多研究人员提出了多类别苹果检测方法，以减轻与粗粒度识别相关的问题。

Gao等人（2020）提出了一种用于简单、狭窄、易于访问且产量高的果园中的多类别苹果检测方法，使用Faster R-CNN。该模型在不同条件下检测到了苹果，如无遮挡（NO）、叶片遮挡（LO）、树枝/电线遮挡（BWO）和果实遮挡（FO），平均精度（mAP）为87.9%，模型大小为512兆字节（MB），处理速度为每秒4.2帧（fps）。Yan等人（2021）使用改进的YOLOv5网络识别果园中的可采摘（NO和LO）和不可采摘（FO和BWO）苹果，mAP为86.75%，处理速度为66.7 fps。Sun等人（2022a）改进了RetinaNet，以检测四种遮挡条件下的苹果（NO、LO、FO和BWO），mAP达到91.3%，模型大小为128 MB，处理速度为23.4 fps。Rathore等人（2023）提出了一种两阶段苹果多类别检测模型，首先使用YOLOv7进行果实检测，然后使用EfficientNet-B0对检测到的果实进行遮挡分类。第一阶段的mAP为90.2%，模型大小为284 MB，处理速度为7.8 fps，第二阶段的分类准确率约为91.38%。尽管这些研究展示了应用潜力，但它们仅检测了苹果的遮挡类型，忽略了集群信息，导致相同遮挡类型的聚集和单个水果被视为同一类别。然而，聚集水果和单个水果的特征有很大差异，因此可以从聚集水果和单个水果中分别学习更具体的特征。此外，由于缺乏水果集群信息，机器人将所有苹果视为独立的，这在采摘聚集水果时可能会导致问题，如抓取不可靠、碰撞损坏和相邻水果脱落。因此，根据遮挡和集群状态将水果分为更多类别可能有助于提高检测精度、采摘效率和采摘质量。然而，在这一领域只有少数相关研究报道。此外，机器人需要在使用有限的计算资源的情况下实时准确检测实际生产中的水果，这需要平衡检测模型的精度、速度和大小。然而，现有的多类别苹果检测研究仍然在平衡这些指标方面面临挑战，如Gao等人（2020）和Rathore等人（2023）报告的模型大小过大（>284 MB）和延迟过高（>128 ms），以及Sun等人（2022a）、Yan等人（2021）和Yan等人（2022）报告的检测精度较低（80.7%–91.3%）。因此，需要开发一种实时、准确且体积小的多类别苹果遮挡和集群检测模型。

为了解决上述问题——特别是缺乏集群信息、精度有限和部署困难——本研究提出了一种名为Apple State You Only Look Once版本8中等（AS-YOLOv8m）的鲁棒多类别苹果检测模型。首先，针对缺乏细粒度语义的问题，建立了一种新的注释标准，根据遮挡和集群条件将苹果分为11个不同的类别，提供了比现有方法更丰富的语义信息。其次，在网络架构方面，设计了具有可变形卷积网络（C2f-DCN）的跨阶段部分瓶颈（C2f）模块，以增强深度特征提取和几何变换建模能力。此外，为了解决由于下采样导致的小目标误检测和漏检问题，将空间到深度卷积（SPD-Conv）模块集成到主干网络中。第三，为了在检测精度和部署效率之间取得平衡，移除了大目标检测头（P5）以减小模型大小，并采用了智能交并框（WIoU）损失函数，以减少低质量锚框的负面影响和高质量锚框的竞争性，从而进一步提高检测性能。最后，通过将苹果标记为四类和十一类数据集来训练和评估该模型。

总体而言，本工作的主要贡献总结如下：

•

细粒度分类策略：建立了一种新的注释标准，根据遮挡和集群状态将苹果分为11个不同的类别，以改进实际采摘应用的检测逻辑。

•

增强的感知框架：开发了一种鲁棒的多类别苹果检测模型AS-YOLOv8m，能够在自然果园环境中准确检测苹果的遮挡和集群状态，同时平衡模型精度、速度和大小。

•

卓越的性能：AS-YOLOv8m展示了最先进的能力，显著优于其他主流目标检测模型和仅限于四种遮挡类别的先前研究，为苹果采摘机器人提供了强大的视觉解决方案。

部分内容

图像采集

2022年10月15日和16日，在中国的两个商业果园——北京怀柔区的ShengShi Fruit King和房山区的Golden Fruit Industry，使用RGB-D相机（RealSense D435i，Intel Corporation，加利福尼亚州圣克拉拉）收集了‘Golden Delicious’和‘Fuji’苹果的数据（图1a）。共随机选择了383棵树进行数据采集。每棵树的RGB和深度图像同步获取

模型训练和评估

改进模型和原始模型在四类和十一类数据集上的训练和验证结果，通过损失曲线和指标曲线显示了它们的性能（图10）。可以看出，不同模型在不同数据集上的损失曲线具有相同的趋势。在训练和验证的早期阶段（epoch <10），损失迅速下降；在中期阶段（10 < epoch < 70），损失速度放缓；在后期阶段（epoch > 70），损失趋于稳定。经过100轮迭代后，

结论

针对苹果遮挡和集群状态识别效果影响采摘效率的研究问题，本研究提出了一种新颖且鲁棒的多类别苹果检测模型AS-YOLOv8m，能够准确检测苹果的遮挡和集群状态，同时平衡模型精度、速度和大小。该模型引入了新的SPD-Cnov和DCN卷积模块，使用了WIoU框损失函数，并移除了多余的检测头P5以改进检测

CRediT作者贡献声明

刘晓航：撰写 – 审稿与编辑，撰写 – 原稿，方法论，数据管理，概念化。张兆：撰写 – 审稿与编辑，监督，项目管理，资金获取。于江帆：数据管理。华婉佳：数据管理。李旭：撰写 – 审稿与编辑。李涵：撰写 – 审稿与编辑。张曼：撰写 – 审稿与编辑。Chayan Kumer Saha：撰写 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了国家自然科学基金项目（32572218）、兵团科技计划（2024BA005）和中国农业大学2115人才发展计划的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

部分内容

图像采集

模型训练和评估

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行