基于YOLOv8n-Seg的葡萄果粒实例分割(Instance Segmentation)及葡萄园机器人疏粒决策方法

《Horticulturae》:YOLOv8n-Seg-Based Grape Berry Instance Segmentation and Thinning Decision-Making for Vineyard Robots

【字体: 时间:2026年06月10日 来源:Horticulturae 3

编辑推荐:

  摘 要:果粒疏除(Thinning)是现代葡萄园管理中的基础作业,未来机器人疏粒系统有望降低劳动强度并提高作业一致性。然而,田间条件下的自动化果粒疏除仍受限于果粒级分割精度不足、遮挡果粒难以识别以及小目标漏检率高,这些局限主要源于果粒密集排列、严重互遮挡及小目

  
摘 要:果粒疏除(Thinning)是现代葡萄园管理中的基础作业,未来机器人疏粒系统有望降低劳动强度并提高作业一致性。然而,田间条件下的自动化果粒疏除仍受限于果粒级分割精度不足、遮挡果粒难以识别以及小目标漏检率高,这些局限主要源于果粒密集排列、严重互遮挡及小目标视觉特征微弱。针对以上挑战,研究人员基于YOLOv8n-seg开发了一种轻量化葡萄果粒实例分割与疏粒决策支持方法。采用两阶段知识蒸馏(Knowledge Distillation)策略——以Mask R-CNN和YOLOv8l-seg作为教师模型(Teacher Model),并结合骨干网络(Backbone)30%通道剪枝(Channel Pruning),在维持模型效率的同时提升对遮挡及小果粒的识别能力。随后利用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法分析实例分割掩膜(Mask)提取的果粒质心坐标与等效直径(Equivalent Diameter),基于局部果粒密度和果粒尺寸生成初步疏除目标推荐。模型在研究人员自建数据集上训练与评估,该数据集包含2025年采集于中国浙江省杭州市临安区永明葡萄园的330张有效阳光玫瑰(Shine Muscat)葡萄果穗图像。结果表明,优化后的YOLOv8n-seg模型在NVIDIA RTX 3060笔记本电脑GPU上取得框平均精度均值box mAP50–95= 0.8945、掩膜平均精度均值mask mAP50–95= 0.7910,推理速度119.19 FPS(Frames Per Second),参数量3.26 M。与原版YOLOv8n-seg相比,优化模型mask mAP50–95提升1.20个百分点,推理速度提升71.79%,参数量减少2.38 M。结果表明所提方法在提高葡萄果粒实例分割性能的同时,在分割精度、轻量化特性和推理效率间取得了良好平衡,为未来葡萄果粒疏除机器人提供了基于离线RGB的视觉感知与初步疏除决策支持方案。但因当前数据集仅取自单一葡萄园、单一品种阳光玫瑰、膨大期果穗及相同成像设备,结果应视为特定条件下的初步证据,尚需在不同品种、生长期、葡萄园、生产季节、相机系统、嵌入式平台及真实机器人疏除作业中进一步验证。
《基于YOLOv8n-Seg的葡萄果粒实例分割及葡萄园机器人疏粒决策方法》论文解读
本研究发表于MDPI期刊《Horticulturae》。在现代葡萄栽培中,果粒疏除(Berry Thinning)是调节果穗紧密度、改善果粒均匀度及提升鲜食葡萄商品品质的关键农艺措施,尤其对于阳光玫瑰(Shine Muscat)等紧凑型品种,一般在坐果后或果粒膨大期去除弱小、畸形、发育不均及过密果粒,保留约40–60粒/穗。传统人工疏除依赖经验、劳动强度大且质量不稳定。开发智能疏除机器人需依赖机载视觉感知系统,但葡萄果粒密集分布、相互严重遮挡、边界粘连且小目标视觉特征微弱,导致现有方法存在果粒级实例分割(Instance Segmentation)精度不足、遮挡与小果粒漏检率高、轻量化模型分割质量下降,以及分割结果无法直接转化为"应疏除哪些果粒"的决策等问题。二阶段模型如Mask R-CNN虽可生成高质量掩膜(Mask)但计算量大,不适合实时机器人部署;单阶段轻量模型如YOLOv8n-seg虽推理快但对密集遮挡小目标分割能力有限;且已有研究多关注果穗检测、果粒计数或采摘点定位,少有将果粒级分割与疏除目标选择相结合的集成框架。因此,研究人员开展了基于改进YOLOv8n-seg的轻量化果粒实例分割与DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类驱动的疏粒决策研究,旨在平衡分割精度、模型轻量化与推理效率,并将视觉感知结果转化为可操作的初步疏除建议。
为开展研究,研究人员使用了以下主要关键技术方法:试验样本为2025年采集于中国浙江杭州临安永明葡萄园、处于果粒膨大期的阳光玫瑰(Shine Muscat)葡萄果穗,使用Orbbec Gemini 2 RGB-D相机在10–30 cm距离、约45°俯角拍摄,仅取RGB图像,经筛选得到330张有效果穗图像(对应330个不同果穗),用LabelMe标注每颗可见果粒的多边形实例分割掩膜,数据集按8∶1∶1划分为训练集264张、验证集33张、测试集33张,含共计16461个标注果粒实例,训练集单独进行亮度±30%、对比度±20%、水平翻转、随机裁剪、高斯模糊及高斯噪声等数据增强。以YOLOv8n-seg为基线学生模型(Student Model),第一阶段对骨干(Backbone)首两层卷积做30%通道剪枝(Channel Pruning, 按L1范数衡量通道重要性),并以Mask R-CNN(ResNet50-FPN)为跨架构教师模型(Teacher Model)进行知识蒸馏(Knowledge Distillation),损失含边框(IoU+MSE)、掩膜(二元交叉熵)及特征(MSE)蒸馏项;第二阶段以第一阶段剪枝后模型为学生、YOLOv8l-seg为同架构教师模型进行细化蒸馏,优化边框/掩膜/特征蒸馏权重,最终模型保留YOLOv8n-seg架构。基于分割结果提取各果粒质心(Centroid)与等效直径(Equivalent Diameter, 由轮廓面积换算为等面积圆直径),用DBSCAN根据果粒质心二维空间分布做密度聚类(邻域半径ε=1.2×平均等效直径,MinPts=3),识别局部过密簇(簇内果粒数≥6),按等效直径升序优先推荐簇内较小果粒为疏除目标(移除比例λ=0.3)。模型评估指标包括box mAP50–95、mask mAP50–95、Precision、Recall及FPS(Frames Per Second)、参数量(Parameters)、浮点运算量(FLOPs);疏粒决策与三位专家共识标注比对,计算Precision、Recall、F1-score及MAE(Mean Absolute Error)。
研究结果如下:
4.1. Training Process and Model Convergence(训练过程与模型收敛性)
研究人员在指定训练配置下完成两阶段优化训练,监测损失曲线与评价指标准确收敛,表明所设计的两阶段知识蒸馏与剪枝框架可在当前数据集与设置下有效优化,第一阶段主要削减冗余并保持基础特征提取能力,第二阶段进一步提升多尺度特征表示与分割表达能力。
4.2. Comparative Analysis Among Baseline, Reference, and Optimized Models(基线、参照及优化模型对比分析)
将最终优化模型与原版YOLOv8n-seg、YOLOv8s/l/x-seg、Mask R-CNN及RT-DETR-L对照。结果显示优化YOLOv8n-seg取得box mAP50–95=0.8945、mask mAP50–95=0.7910、119.19 FPS、3.26 M参数、5.95 GFLOPs;较原YOLOv8n-seg mask mAP50–95提升1.20个百分点、推理速度提升71.79%、参数减少2.38 M。Mask R-CNN(mask mAP50–95=0.8224)与YOLOv8l/x-seg分割精度更高但参数量大、推理慢不适合轻量部署;优化模型在未显著增大复杂度前提下取得精度—速度—轻量化较好平衡,适宜作为部署导向的学生模型。
4.3. Stability Evaluation Under Different Random Seeds(不同随机种子下的稳定性评价)
采用随机种子0、42、3407重复训练与测试。最终优化模型平均box mAP50–95=0.8933±0.0009、mask mAP50–95=0.7890±0.0031、Precision=0.9502±0.0011,均优于基线;Recall略降(0.9236±0.0027 vs 0.9305±0.0061),说明优化侧重提升分割精度与预测正确性,检测完整性有微小折衷。表明两阶段蒸馏与剪枝策略在不同随机初始化下具相对稳定表现。
4.4. Ablation Analysis of Pruning and Knowledge Distillation Strategies(剪枝与知识蒸馏策略的消融分析)
4.4.1. Component-Level Ablation of Pruning and Knowledge Distillation(组件级消融)
分别对比仅剪枝、仅Mask R-CNN蒸馏、仅YOLOv8l-seg蒸馏、第一阶段(剪枝+Mask R-CNN KD)、剪枝+YOLOv8l-seg KD及最终两阶段模型。仅剪枝降参至3.26 M且提速但mask mAP微升、Recall略降;仅Mask R-CNN KD或仅YOLOv8l-seg KD提升精度但未压缩参量;第一阶段模型兼顾轻量化与引导;直接"剪枝+YOLOv8l-seg KD"mask mAP50–95=0.7871低于最终模型(0.7910);最终两阶段模型综合表现最优,证明跨架构先导蒸馏再同架构细化蒸馏配剪枝效果优于单种手段单独或简单组合。
4.4.2. Sensitivity Analysis of Pruning Ratio(剪枝率敏感性分析)
在完整两阶段框架下测试10%、20%、30%、40%剪枝率。30%剪枝率取得最高box mAP50–95(0.8945)、mask mAP50–95(0.7910)、Precision(0.9507)、Recall(0.9243)及较高FPS;40%剪枝率FPS更高(FLOPs更低)但各项精度指标下降,说明过度剪枝削弱特征表示;故选定30%为最佳平衡点。
4.4.3. Effect of Distillation Weight Configuration(蒸馏权重配置的影响)
测试第二阶段边框/掩膜/特征蒸馏权重组合,最终确定最优为λbox=0.12、λmask=0.55、λfeat=0.10,此时box mAP50–95=0.8945、mask mAP50–95=0.7910、FPS=119.19整体最优。提高掩膜蒸馏权重有助于密集粘连果粒边界学习,降低边框权重避免过度约束轻量模型定位分布,适中特征权重提供语义引导而不主导优化。
4.5. Visualization Results and Thinning Decision Evaluation(可视化结果与疏粒决策评价)
优化模型在密集、遮挡、边缘小果粒场景较原YOLOv8n-seg改善实例分离与掩膜连续性,但在极低边界对比度或极严重遮挡时仍有漏检或掩膜合并现象。DBSCAN可根据质心聚类识别过密区并按"优先去小果粒"给出推荐(例:62粒检出→16粒推荐疏除)。参数敏感性分析显示邻域系数α=1.2、MinPts=3、密度阈值Nc=6、移除比λ=0.3时疏除建议适中稳定;λ对最终疏除数量影响最直接。33张测试图与三位专家多数表决共识比对的疏粒决策模块Precision=0.756、Recall=0.771、F1-score=0.763、MAE=1.48粒/图,专家两两平均F1=0.834±0.067,说明方法与专家判断有合理一致性,但需更大样本与田间试验进一步验证。
讨论部分总结:
讨论指出,本研究通过训练策略优化(两阶段蒸馏+剪枝)而非引入复杂新模块提升了轻量模型性能——第一阶段跨架构蒸馏与骨干剪枝获紧凑基线,第二阶段同架构细化蒸馏强化高IoU下分割能力。最终模型虽未达最大模型绝对mAP但其优势在于精度—速度—参数量的部署向平衡;Mask R-CNN与更大YOLOv8型号精度更高但难部署。消融与剪枝率分析限于固定数据划分,30%为当前最优非全局最优,未来拟细化区间与多数据集验证;三随机种子重复实验显示mask mAP与Precision稳定但缺k折与统计检验。葡萄果粒密集、边界粘连、尺寸小使高精度掩膜(Mask)比粗边框更重要,故高掩膜蒸馏权重配置更有效。DBSCAN疏粒决策弥补了单纯分割不能判定"疏哪颗"的不足,将感知转为初步操作建议,但仍属离线2D RGB方案,需融合深度信息、三维定位与机械臂轨迹规划方适于真实机器人闭环作业。疏粒决策仅经33图专家标注比对且未做田间疏除试验,农艺主观性存在,需多品种多季节多场景验证。数据集限单一品种(阳光玫瑰)、单一园、膨大期、同设备,泛化性待扩展;未见小果粒/遮挡果粒独立属性级标注与标注释放一致性量化。推理速度基于笔记本GPU非嵌入式平台(Jetson等),真实嵌入式部署与机器人作业指标(定位误差、成功率、损伤率、周期时间)尚待评估。当前方法为未来葡萄疏除机器人提供离线RGB视觉感知与初步疏粒决策支持模块。
结论(Conclusions)翻译:
为应对自然葡萄园条件下葡萄果粒实例分割所面临的果粒密集分布、相互遮挡、复杂背景及轻量化感知需求等挑战,本研究开发了一种基于YOLOv8n-seg的葡萄果粒实例分割与疏粒决策支持方法。通过引入两阶段知识蒸馏(Knowledge Distillation)与剪枝(Pruning)优化策略以提升轻量学生模型(Student Model)的分割性能,并进一步采用基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise)的聚类方法,依据果粒质心位置与等效直径(Equivalent Diameter)特征生成初步疏除目标推荐。研究人员在自建葡萄果粒数据集上的实验结果表明,最终优化模型取得box mAP50–95=0.8945、mask mAP50–95=0.7910;与原版YOLOv8n-seg基线相比,mask mAP50–95提升1.20个百分点,模型推理速度达119.19 FPS(Frames Per Second),参数量3.26 M、FLOPs 5.95 G,表明所提优化策略在当前离线GPU实验环境下改善了轻量模型的分割性能与推理效率,为后续嵌入式平台验证后的边缘视觉感知提供了潜在基础。剪枝率敏感性分析显示30%剪枝率在所测设置中取得了分割精度与计算效率间的最有利平衡。基于实例分割结果,本研究进一步提出DBSCAN疏粒决策方法:结合果粒质心坐标、局部密度聚类与等效直径信息识别过密区域,并在密集簇内优先选择较小果粒作为初步疏除目标。参数敏感性分析表明默认DBSCAN参数组合在测试条件下产生相对稳定的疏除建议。此外,33张测试图像与三位专家共识标注的比对显示,DBSCAN疏粒决策取得Precision=0.756、Recall=0.771、F1-score=0.763、MAE=1.48粒/图,三位专家两两平均F1-score为0.834±0.067,提示该方法可在当前测试条件下为葡萄果粒疏除提供初步视觉决策支持。但DBSCAN推荐结果不应被直接解释为经农艺验证的最终疏除处方,仍需在更大测试集、多葡萄品种、多生长阶段、跨季节田间影像及真实田间疏除试验中进一步验证。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号