《Horticulturae》:MEGNet: A Multi-Scale Edge Geometry-Aware Network for Green Plum Detection in Picking Orchard Environment
编辑推荐:
针对果园中青梅检测存在的果实尺度变化大、目标分布密集、叶片遮挡严重以及背景复杂等挑战,本研究提出了一种轻量化多尺度边缘几何感知网络(Multi-scale Edge Geometry-aware Network,MEGNet)。首先,构建了青梅检测数据集(Gr
针对果园中青梅检测存在的果实尺度变化大、目标分布密集、叶片遮挡严重以及背景复杂等挑战,本研究提出了一种轻量化多尺度边缘几何感知网络(Multi-scale Edge Geometry-aware Network,MEGNet)。首先,构建了青梅检测数据集(Green Plum Detection Dataset,GPD),为该任务提供真实的果园场景数据。其次,基于YOLO11n对模型结构进行增强,设计了高效多尺度特征融合注意力模块(Efficient Multi-scale Feature Fusion Attention,EMFFA)以提升多尺度果实特征的表达能力;引入颜色-边缘引导的双判别器特征增强模块(Color-Edge guided Dual-discriminator,CED)以增强复杂背景下的特征判别力;提出坐标注意力幽灵检测头(Coordinate Attention Ghost Detection Head,CAGDetect)以降低模型参数量与计算复杂度。此外,引入了几何一致性调制CIoU损失函数(Geometry-Consistency modulated CIoU,GC-CIoU),通过几何一致性调制机制改善遮挡与密集场景下的目标定位稳定性。实验结果表明,在GPD上,MEGNet的精确率(Precision)达93.9%,召回率(Recall)达86.2%,mAP50为93.2%,mAP50:95为76.1%;模型参数量仅2.13 M,浮点运算量(FLOPs)为4.7 G。与基准模型YOLO11n相比,精确率、召回率、mAP50和mAP50:95分别提升2.5%、5.2%、4.4%和4.6%。此外,在Jetson Orin Nano嵌入式设备上的部署实验表明,实时检测速度可达31–33帧/秒。所提方法为智能采摘系统、果园监测平台及农业机器人视觉感知提供了高效可靠的解决方案。
本研究旨在解决果园复杂环境下青梅智能检测的核心难题。青梅作为一种营养丰富、经济价值高的特色水果,在中国果园中广泛种植,其产量与品质直接影响农民收入与区域农业发展。随着智慧农业与智能采摘技术的进步,果园环境中果实的自动检测与定位已成为关键研究方向。然而,自然果园中的青梅检测面临多重挑战:果实尺度变化显著、分布密集、枝叶遮挡严重、背景复杂,且光照与视角变化敏感;尤其果实的表皮颜色与叶片高度相似,形成"颜色伪装"现象,进一步增加了区分难度。传统果实检测方法依赖人工巡检或基于图像处理的特征分析,如颜色阈值分割、边缘检测与形态特征提取,这些方法在简单背景或稳定光照下有效,但易受光照变化、果实遮挡与背景干扰影响,泛化能力有限。后续研究引入机器学习技术,提取颜色、纹理、形状等特征并结合支持向量机(Support Vector Machine,SVM)、K近邻(K-Nearest Neighbors,KNN)等分类器进行识别,但仍依赖人工设计特征,在复杂果园条件下假阳性率与假阴性率较高。近年来,基于卷积神经网络(Convolutional Neural Network,CNN)的目标检测取得显著进展,其中YOLO(You Only Look Once)系列模型因其端到端结构、高精度与快速推理能力被广泛应用于果实检测。然而,现有YOLO模型在真实果园环境中仍面临挑战:青梅作为小目标时传统卷积结构难以捕获细粒度边缘特征导致漏检;枝叶遮挡与复杂背景干扰造成误检;部分模型参数量大、计算复杂度高,难以部署于资源受限的农业设备或边缘计算平台;且现有轻量化模型主要针对颜色对比度明显的果实,而青梅与叶片的颜色相似性使单纯基于颜色的检测难以实现精准识别。
为应对上述挑战,研究人员提出了MEGNet模型以提升复杂果园环境下青梅检测的精度与实时性。该研究以YOLO11n为基准,联合优化特征提取、特征增强、检测头设计及损失函数,在保持轻量化结构的同时实现显著性能提升。研究数据来源为吉林省长春市朝阳区城南生态采摘园,该果园位于东经125.24°、北纬43.75°、海拔221 m处。图像采集覆盖青梅绿熟期多棵不同位置与树龄的果树,时间跨度涵盖多个非连续日期以充分捕捉日间环境变化。拍摄条件包括阴天、直射阳光、逆光及斑驳树荫等多种自然光照环境;果实分布涵盖稀疏、中等及密集簇生等密度场景;拍摄角度包括水平、仰视及俯视等多视角,拍摄距离模拟实际农业检测设备的摄像头检测距离。图像使用Apple iPhone 13与iPhone 15智能手机采集,经筛选后保留1250张轮廓与纹理清晰的青梅图像,分辨率包括3024 × 3024、3024 × 4032及4032 × 3024像素,使用LabelImg 1.8.6工具进行YOLO格式标注,共计6562个青梅目标。数据集按8:1:1划分为训练集(1000张)、验证集(125张)与测试集(125张)。为提升模型泛化性与鲁棒性,对训练集施加翻转(水平翻转与垂直翻转,概率为1.0)、随机亮度调整(缩放因子0.5–1.5)及运动模糊(核大小66)三种数据增强技术,使训练集扩充至2000张图像。
研究采用的关键技术方法主要包括:基于YOLO11n的模型架构改进,具体涵盖四个创新模块的设计——高效多尺度特征融合注意力模块(EMFFA)、颜色-边缘引导的双判别器特征增强模块(CED)、坐标注意力幽灵检测头(CAGDetect)以及几何一致性调制CIoU损失函数(GC-CIoU)。实验在Windows 10系统上进行,使用PyTorch 2.2.2框架与Python 3.11.11,GPU为NVIDIA GeForce RTX 4070 Ti SUPER(16 GB显存)。训练设置批次大小为32,共200个训练轮次,4个数据加载线程;优化器采用随机梯度下降(Stochastic Gradient Descent,SGD),初始学习率0.01,动量0.937,权重衰减0.0005,随机种子固定为0以确保可重复性。模型最终在NVIDIA Jetson Orin Nano嵌入式平台进行部署验证,该设备配备Arm Cortex-A78AE CPU与32核Tensor GPU,软件环境基于JetPack 6.2开发套件。
研究结果部分围绕多个核心实验展开。在训练收敛与检测性能分析方面,MEGNet的损失曲线呈现先快速下降后缓慢收敛的趋势,整体损失低于基准YOLO11n且收敛更快,表明特征表达能力增强与优化效率提升。在GPD测试集上,MEGNet实现精确率93.9%、召回率86.2%、mAP5093.2%、mAP50:9576.1%,参数量2.13 M,FLOPs 4.7 G,在保持轻量化的同时实现了优异的检测与定位性能。
消融实验与结果分析部分,研究人员以YOLO11n为基准逐步添加各改进模块进行增量消融研究。引入EMFFA模块后,mAP50从88.8%提升至91.3%,mAP50:95从71.5%提升至74.0%,参数量从2.58 M降至2.34 M,FLOPs从6.3 G降至5.5 G,表明多尺度特征融合与EMA机制有效增强了多尺度青梅特征的表达能力。添加CED模块后,精确率达92.0%、召回率83.7%、mAP5090.8%、mAP50:9573.5%,参数量降至2.31 M,FLOPs降至5.4 G,该模块强化了颜色语义与边缘细节表达,但严格的边缘语义过滤在抑制假阳性的同时略微影响了模糊小目标的检测。纳入CAGDetect检测头后,精确率提升至93.6%、召回率85.4%、mAP5092.9%、mAP50:9575.6%,参数量降至2.13 M,FLOPs降至4.7 G,表明改进的检测头在降低计算复杂度的同时提升了性能。最终引入GC-CIoU损失函数后,精确率达93.9%、召回率86.2%、mAP5093.2%、mAP50:9576.1%,参数量与FLOPs保持不变,该损失函数通过几何一致性调制增强了遮挡与密集场景下的目标定位能力。此外,独立单模块集成与关键两两组合实验揭示了模块间的协同互补效应:EMFFA与CAGDetect组合时召回率大幅提升至87.0%、mAP50:95达76.2%;CED与CAGDetect组合时在保持93.3%高精确率的同时实现了模型轻量化。雷达图可视化表明,逐步添加各模块后模型综合性能显著提升,最终模型在精确率、召回率、mAP50与mAP50:95上分别较YOLO11n提升2.5%、5.2%、4.4%和4.6%,同时参数量减少0.45 M,FLOPs降低1.6 G。
GC-CIoU损失与其他IoU损失函数的对比评估部分,研究比较了CIoU、DIoU、EIoU、GIoU、SIoU、WIoU系列及α-IoU等常用损失函数。结果表明,GC-CIoU在各项评价指标上均优于对比方法:精确率93.9%、召回率86.2%、mAP5093.2%、mAP50:9576.1%。该损失函数通过在CIoU基础上引入几何一致性调制机制,有效缓解了边界框回归中的几何约束冲突,在密集、遮挡及尺度变化目标场景下实现了更稳定的优化。
不同模型的实验对比分析部分,研究将MEGNet与Faster R-CNN、SSD、RT-DETR及YOLO系列模型进行比较。Faster R-CNN精确率仅43.1%、mAP5059.5%,参数量136.69 M、FLOPs 401.7 G,计算成本极高;SSD参数量与FLOPs较低但召回率仅42.5%、mAP5042.9%,在复杂背景下易产生漏检与误检;RT-DETR虽检测精度较强(mAP5091.3%、mAP50:9573.3%),但参数量31.99 M、FLOPs 103.4 G,实时性不足。YOLO系列中,YOLOv7-tiny参数量6.01 M、FLOPs 13.0 G相对较大,其他轻量化模型mAP50多处于87%–89%区间。相较之下,MEGNet以2.13 M参数量、4.7 G FLOPs实现了最优的精度-效率平衡,雷达图显示其在多项指标上均占据优势。
不同随机种子的实验结果分析部分,研究在固定种子0及额外5个种子(1–5)下重复实验。MEGNet在六种不同种子下综合检测性能均优于YOLO11n,尤其在mAP50和mAP50:95上保持领先。均值与标准差分析显示,MEGNet(精确率:93.72 ± 0.64%,召回率:86.07 ± 0.99%,mAP50:92.87 ± 0.59%,mAP50:95:76.53 ± 0.78%)显著优于YOLO11n(精确率:92.35 ± 0.67%,召回率:80.12 ± 1.34%,mAP50:89.08 ± 0.63%,mAP50:95:70.95 ± 0.75%),配对t检验表明改进具有统计显著性(p值 < 0.05)。
可视化实验与结果分析部分,检测结果显示MEGNet相比YOLO11n具有更高的检测置信度,能有效解决YOLO11n的误检(如将叶片误判为青梅)与漏检(如枝叶遮挡导致的遗漏)问题。特征热力图可视化表明,MEGNet在青梅目标上产生更集中、更明确的高响应区域,对叶片、树枝、天空及地面等背景抑制更强;在密集果实场景中能为每个目标生成独立高响应区,避免弥散激活;在部分遮挡情况下仍能突出可见区域;在复杂背景纹理下对叶片和树枝模式的响应弱于YOLO11n,表明其有效抑制了无关背景特征。
嵌入式边缘设备部署实验部分,研究将MEGNet部署于NVIDIA Jetson Orin Nano平台,软件环境基于JetPack 6.2开发套件(CUDA 12.6、cuDNN 9.6、TensorRT 10.7)。模型推理使用PyTorch 2.5与Torchvision 0.20实现,图像处理由支持CUDA的OpenCV 4.10加速。在仅计入推理时间、批次大小为1的单帧实时检测场景下,MEGNet在果园场景中的推理速度稳定在31–33帧/秒,最高帧率超过33帧/秒,最低保持30帧/秒以上,验证了该模型在资源受限边缘计算环境中的实时检测能力与部署可行性。
研究结论部分指出,该研究针对果园环境中青梅检测的果实尺度变化大、分布密集、叶片遮挡严重及背景复杂等挑战,提出了轻量化多尺度边缘几何感知网络MEGNet。GPD数据集采集自吉林省长春市城南生态采摘园,包含1250张图像与6562个目标实例,通过翻转、随机亮度调整与运动模糊增强训练样本。模型基于YOLO11n构建,EMFFA模块增强多尺度果实特征提取;CED模块强化关键特征表达;CAGDetect检测头在保持精度的同时降低参数量与计算成本;GC-CIoU损失函数扩展原始CIoU损失,通过几何一致性调制机制稳定遮挡与密集场景下的回归过程。GPD实验结果表明,MEGNet实现精确率93.9%、召回率86.2%、mAP5093.2%、mAP50:9576.1%,参数量仅2.13 M、FLOPs 4.7 G,较YOLO11n全面提升且模型更小、计算更少。消融与损失函数研究表明各模块均显著增效。对比实验证明MEGNet在精度、模型尺寸与推理成本间达到最优平衡,超越Faster R-CNN、SSD、RT-DETR及YOLO系列。Jetson Orin Nano部署显示果园场景中31–33帧/秒的稳定实时检测,确认边缘设备部署的可行性与实时性。然而,上述结果仅在单一果园数据集上进行内部验证,模型向其他果园环境的泛化能力有待测试。未来工作将探索基于Transformer结构的全局特征建模,以及多模态融合与跨季节迁移学习策略,以增强模型在不同光照、天气条件及多品种果实检测场景下的泛化能力与适应性。