《Horticulturae》:YOLO-MOD: An Instance Segmentation Algorithm for Pomelo Fruit and Fruit Stem Based on YOLOv11-Seg
编辑推荐:
该研究旨在开发一种实例分割模型,用于在复杂自然果园环境中联合分割柚子果实和果茎,特别关注细长、小尺度且易受遮挡的果茎目标。为此,研究人员提出了YOLO-MOD,一种基于YOLOv11-seg的改进型实例分割算法。具体而言,研究将全维动态卷积(Omni-Dime
该研究旨在开发一种实例分割模型,用于在复杂自然果园环境中联合分割柚子果实和果茎,特别关注细长、小尺度且易受遮挡的果茎目标。为此,研究人员提出了YOLO-MOD,一种基于YOLOv11-seg的改进型实例分割算法。具体而言,研究将全维动态卷积(Omni-Dimensional Dynamic Convolution, ODConv)引入C3k2模块以增强复杂特征表征;嵌入多尺度扩张注意力(Multi-Scale Dilated Attention, MSDA)模块以提升对细长果茎区域的多尺度语义感知;并将原始上采样算子替换为DySample以加强细粒度边界恢复。实验结果表明,与原始YOLOv11-seg相比,YOLO-MOD的边界框平均精度均值(Box mAP@50)和掩膜平均精度均值(Mask mAP@50)分别提高了2.9%和3.9%。对于果茎类别,Box mAP@50和Mask mAP@50分别从71.9%提升至77.8%、从68.4%提升至76.2%。这些结果表明YOLO-MOD能够在该研究所用数据集上实现柚子果实和果茎的细粒度分割。然而,其在不同果园、季节、柚子品种和果实类型间的泛化能力仍需进一步评估,其在集成式机器人采摘系统中的实际有效性仍有待进一步验证。
柚子(Citrus maxima)是一种重要的经济柑橘类水果,富含维生素、膳食纤维及多种生物活性成分,具有较高的食用与加工价值。在柚子采收过程中,果实采摘、分级和搬运通常占据极高的劳动力成本。在劳动力短缺与用工成本不断上升的背景下,开发适用于自然果园的自动化采收装备已成为产业关注的重点方向。视觉感知系统是采收机器人的关键组成部分,果实与果茎的精确识别与分割直接决定了后续结构解析的可靠性及系统在复杂场景中的鲁棒性。然而柚子果园具有典型的非结构化特征:茂密的冠层导致严重的枝叶遮挡,果实表面反射(itr)反射与阴影频繁出现,果实个体大且姿态变化明显;同时,果茎细长、尺度小,易与细枝纹理混淆,在果实密集与相互遮挡条件下,分割漏检与断裂现象频发,降低了分割质量和关键结构信息提取的稳定性,这些因素共同增加了柚子检测与分割任务的难度。
早期果园目标分割研究主要采用传统计算机视觉技术,通过颜色空间转换、阈值分割、边缘检测和形态学处理提取目标区域。尽管这些方法在稳定光照或简单背景下表现尚可,但对自然果园环境中的反射和阴影缺乏鲁棒性,跨场景泛化能力差。此外,对于果茎等细长结构,传统方法易受遮挡和相似纹理干扰,经常出现边界不完整和连通性弱的问题,难以满足复杂场景中精确分割的需求。随着计算机视觉技术的进步,采收机器人中的视觉目标检测与空间定位已逐步从传统图像处理方法转向深度学习方法。YOLO系列模型广泛应用于目标检测,其后续版本及扩展变体在图像分割任务中也展现出优异性能。
为应对上述任务特异性挑战,该研究开发了YOLO-MOD,一种面向应用的实例分割框架,基于YOLOv11-seg实现复杂果园环境中柚子果实与果茎的联合分割。该框架并非引入全新的通用分割范式,而是针对该任务中遇到的三大难点进行设计:果茎与背景枝条之间的局部结构模糊性、小规模且部分遮挡果茎的多尺度表征不足、掩膜重建过程中的边界不连续问题。据此,研究引入了以下针对性改进:将ODConv集成至C3k2模块以增强柚子果实、果茎和背景枝条之间局部结构差异的自适应表征;嵌入MSDA模块以强化复杂背景干扰下小规模及局部遮挡果茎区域的多尺度上下文建模;将原始上 cinnamon 上采样算子替换为DySample以改善特征重建质量并保持细长果茎掩膜的边界连续性。
该研究成果发表于《Horticulturae》期刊,对于智能柚子采收系统的前端视觉感知研究具有重要意义。
研究人员开展研究时使用了以下主要关键技术方法:图像采集设备采用尼康Z30相机,分辨率为5568×3712像素;<|reserved_token_163705|> 数据集构建方面,于四川省成都市新都区幽乐园附近柚子果园采集图像,涉及新都柚1号和2号两个品种,最终保留538张高质量原始图像,经数据增强后形成2152张训练图像、269张验证图像和269张测试图像,共标注13574个柚子实例和13024个果茎实例;深度学习实验环境为32GB RAM、Intel Core i5-14600KF CPU和NVIDIA RTX 4060 GPU,基于Windows 10操作系统、Python 3.11.4、PyTorch 2.0.0和CUDA 11.8;评估指标涵盖参数(Params)、计算量(GFLOPs)、精确率(Precision)、召回率(Recall)、F1分数、帧率(FPS)、均值Dice相似系数(mDSC)、边界F分数(BF-score)、边界框平均精度均值(Box mAP)及掩膜平均精度均值(Mask mAP)等。
在注意力模块选择实验中,研究人员比较了高效多尺度注意力(EMA)、大分离核注意力(LSKA)、混合局部通道注意力(MLCA)、多尺度卷积注意力(MSCA)和多尺度扩张注意力(MSDA)五种注意力模块。结果表明MSDA取得了最显著的整体性能提升,其Mask mAP@50和Mask Recall在所有对比注意力机制中最高,分别达到87.8%和82.9%,果茎类别的Mask mAP@50从68.4%提升至76.2%,增幅达7.8%,故选定MSDA作为YOLO-MOD的注意力模块。
在与代表性分割模型的对比实验中,研究人员将YOLO-MOD与YOLOv5-seg、YOLOv6-seg、YOLOv7-seg、YOLOv8-seg、YOLOv9-seg、YOLOv10-seg、YOLOv11-seg和YOLOv12-seg进行了比较。结果显示,YOLO-MOD在保持相对较低模型复杂度的同时实现了具有竞争力的分割性能,其参数量为4.1 M,计算量为11.3 GFLOPs,整体Box mAP@50和Mask mAP@50分别为88.6%和87.8%,果茎类别的Mask mAP@50达到76.2%,为所评估模型中最高数值。YOLOv7-seg在多项检测相关指标上高于YOLO-MOD,但其参数量和计算量远高于YOLO-MOD。YOLOv9-seg的整体Mask mAP@50为87.5%、果茎类别Mask mAP@50为75.8%,与YOLO-MOD接近。在精确率-召回率(P-R)曲线分析中,YOLO-MOD在果茎分割任务中的Mask mAP@0.5为0.762,在整体分割任务中的Mask mAP@0.5为0.878。
消融实验中,基线模型(实验1)的参数量为2.8 M,计算量为10.2 GFLOPs,整体Mask mAP@50为83.9%,果茎类别Mask mAP@50为68.4%。单独引入MSDA(实验2)后,整体和果茎类别Mask mAP@50分别提升至84.8%和70.4%,但模型复杂度增至4.7 M参数和19.4 GFLOPs。单独引入ODConv(实验3)后,参数量和计算量分别增至3.8 M和11.1 GFLOPs,整体和果茎类别Mask mAP@50分别提升至85.8%和72.1%。单独引入DySample(实验4)后,参数量和计算量仅小幅增加至2.9 M和10.3 GFLOPs,但整体和果茎类别Mask mAP@50分别大幅提升至86.7%和74.0%,为三个单模块配置中性能提升最大。MSDA与ODConv组合(实验5)的整体和果茎类别Mask mAP@50达到87.1%和74.7%。ODConv与DySample组合(实验6)的整体和果茎类别Mask mAP@50为86.5%和73.6%。MSDA与DySample组合(实验7)的整体和果茎类别Mask mAP@50为86.9%和74.6%。最终,MSDA、ODConv和DySample三者联合(实验8,即完整YOLO-MOD)取得了最佳整体掩膜分割性能,整体Box mAP@50和Mask mAP@50分别为88.6%和87.8%,果茎类别Mask mAP@50达到76.2%。
在测试集性能评估与特征注意力分析中,研究人员使用独立保留的测试子集进行评估,该子集图像包含不同光照条件、拍摄角度、枝叶遮挡、果实重叠和局部阴影等代表性挑战场景。定量结果显示,YOLO-MOD的整体Box Precision、Recall和mAP@50分别为89.3%、85.6%和89.7%,高于YOLOv11-seg的88.1%、80.7%和86.3%;Mask Precision、Recall和mAP@50分别为88.5%、85.0%和88.3%,高于基线的88.3%、80.3%和85.4%。处理效率方面,YOLOv11-seg的处理速度为42.2 FPS,YOLO-MOD为34.8 FPS,降低7.4 FPS。类别级分析表明,果茎类别的Box mAP@50从73.1%提升至79.9%(提升6.8%),Mask mAP@50从71.4%提升至77.2%(提升5.8%)。柚子类别的两项指标均达到99.4%。在更严格的mAP@50:95准则下,YOLO-MOD的整体Box mAP@50:95和Mask mAP@50:95分别为74.0%和69.0%,较基线提升2.8%和3.3%;果茎类别的Mask mAP@50:95从34.1%提升至39.9%。此外,果茎平均掩膜交并比(Stem Mean Mask mIoU)从36.4%提升至40.7%,平均Dice系数从45.2%提升至50.3%,平均边界F分数从52.3%提升至59.1%。Grad-CAM++可视化结果表明,YOLO-MOD在多目标、遮挡、前光照和后光照场景下均比基线模型形成更完整连续的高响应区域,对目标区域的关注更准确稳定。
讨论部分中,研究人员指出与以往基于YOLO的农业视觉研究相比,YOLO-MOD同样采用任务导向的改进策略,但聚焦于柚子果实与细长果茎的联合实例分割。果茎区域相比果实目标更小、更易受遮挡、更难与枝条和叶柄区分,改进的果茎分割性能源于ODConv、MSDA和DySample在结构判别、多尺度上下文表征和边界重建方面的互补效应。然而,由于作物、数据集、成像条件、模型规模和评估方案存在差异,与先前研究的直接比较应谨慎解读。
该研究结论部分的限制在于:数据集仅来自四川省成都市新都区单一果园的单一成熟期,仅包含新都柚1号和2号两个品种,虽涵盖遮挡、果实重叠、不均匀光照、阴影和复杂背景等挑战性场景,但无法完全代表不同地理区域、季节、果园管理条件、冠层结构、柚子品种或其他果实类型的变异;比较和消融实验未使用多个随机种子重复,报告的性能差异应解读为当前实验设置下的描述性证据而非统计学验证的改进;果茎分割质量受模型结构、标注精度和目标可见度的共同影响;研究仅基于单帧RGB图像进行实例分割,而实际采收机器人在动态观测环境中运行;采收机器人实例分割与实际采收动作之间存在任务差距;模型在边缘计算设备、嵌入式平台或真实采收机器人上的运行性能、资源消耗和长期运行稳定性尚未系统验证。
研究结论表明,该研究提出了YOLO-MOD,一种基于YOLOv11-seg的改进型实例分割算法,以提升复杂自然果园条件下柚子果实和果茎的前端视觉分割性能。通过将ODConv引入C3k2模块、嵌入MSDA模块以及将原始上采样算子替换为DySample,该方法增强了模型对局部结构差异、多尺度语义信息和精细边界特征的表征能力,从而改善了柚子果实和果茎的联合实例分割性能。实验结果显示,YOLO-MOD的Box mAP@50和Mask mAP@50分别达到88.6%和87.8%,计算量和参数量分别为11.3 G和4.1 M。与基线YOLOv11-seg模型相比,整体Box mAP@50和Mask mAP@50分别提高了2.9%和3.9%;对于更具挑战性的果茎类别,Box mAP@50和Mask mAP@50分别提高了5.9%和7.8%。这些结果表明,所提出的方法在仅适度增加模型复杂度的前提下,能够有效提高柚子果实和果茎的实例分割精度,尤其改善了细长、小尺度和易受遮挡果茎目标的掩膜重叠质量和边界一致性。总体而言,YOLO-MOD相较于基线模型展现出更优的综合性能和场景适应性。该方法作为后续柚子采摘点定位和机器人采收研究的前端视觉感知组件具有潜在应用价值,但其在三维定位、机械臂规划和完整采收操作中的有效性仍需在集成机器人平台上进一步验证。未来工作将进一步扩充包含多地区、多品种和多生育期柚子果实及果茎图像的数据集,并在边缘设备、采收机器人或智能终端上开展部署测试,同时将实例分割与采摘点定位、三维姿态估计和机械臂协同控制进一步结合,使分割结果能够为机器人采收提供更精确的视觉引导,进一步提升所提出方法在智能柚子采收中的实用价值。