《Frontiers in Plant Science》:YOLO-FLBM: a lightweight and high-performance model for tomato ripeness detection in complex greenhouse environments
复杂温室环境下番茄成熟度的实时检测面临双重挑战:叶片遮挡与果实重叠带来的干扰要求高检测精度,而收获机器人有限的计算资源又要求模型轻量化。为此,研究人员提出YOLO-FLBM,一种基于改进YOLOv8s架构的轻量高性能模型。首先,使用FasterNet重构骨干网络以减少冗余,为边缘部署建立精简基础。其次,通过整合C2f-LS模块与BiFPN结构,构建了一种创新的颈部架构(LB Neck)。关键的是,研究人员开发了一种新颖的多尺度坐标动态注意力(MCDA)机制。通过混合感知池化与全秩核生成相结合,MCDA动态捕获空间依赖关系以解决遮挡问题。在自定义番茄数据集上的实验结果表明,YOLO-FLBM实现了综合性能提升:精确率(Precision)、召回率(Recall)、mAP@50和mAP@50–95分别达到95.2%、91.9%、97.4%和78.9%,相比基线模型分别提升3.7%、2.5%、1.9%和1.7%。同时,模型参数量减少至3.743 M,较原始模型大幅降低61.9%。这些结果证实了模型的效率与精度,为自动化番茄收获机器人提供了有价值的参考。
YOLO-FLBM模型及番茄成熟度检测研究解读
研究背景与意义
番茄(Solanum lycopersicum)是全球设施农业中经济价值显著的代表性果菜。传统温室环境中,果实分布密集、成熟度差异大、叶片遮挡与果实重叠普遍,人工采收劳动密集且耗时。随着农业劳动力老龄化与季节性短缺,传统模式难以满足规模化、标准化高效生产需求。自动化收获技术有助于提高采收效率与作业稳定性,降低长期人力成本,缓解季节性用工压力,增强温室番茄生产的经济可持续性。作为自主收获机器人实现精准作业的前提,快速准确地识别不同成熟度番茄,成为当前智能收获系统的核心问题。
现有温室番茄识别传统方法主要依赖颜色、形状特征提取(如PCA结合颜色纹理、圆形Gabor、局部形状匹配、HSV分割等),在极端光照、背景近似色、部分遮挡与不规则果形下鲁棒性不足,且计算效率较低,难以同时满足农业机器人对高精度与实时性的要求。
基于深度卷积神经网络(CNN)的番茄目标检测已成为主流,可分为两阶段(region-based, e.g., R-CNN系列)与单阶段(regression-based, e.g., YOLO系列)。两阶段方法精度高但计算复杂、延迟大;YOLO系列单阶段模型同时定位与分类,更适于快速推理。已有研究基于YOLOv8n、Slim-Neck、EMA注意力、多路径逆残差单元(MPIRU)、动态聚焦注意力框架(DFAF)、双通道跨特征融合RGB+深度(DCFA-YOLO)、P2层增强(PC-YOLO11s)、门控卷积与Wise-PIoU损失等进行了优化,但在边缘设备上兼顾高精度、强鲁棒性与复杂温室适应性方面尚缺综合解决方案。
真实温室中,果实重叠、严重遮挡、尺寸与空间分布变化给快速准确识别带来显著挑战。为此,研究人员开展本研究,提出新型轻量模型YOLO-FLBM,设计目标是在保持轻量结构的同时,实现复杂温室环境下高效准确识别,为收获机器人视觉系统提供技术基础。论文发表于《Frontiers in Plant Science》。
主要关键技术方法
研究人员构建自定义番茄成熟度数据集(采集自中国福州市长乐区鹤上镇温室,iPhone与华为相机,距目标0.3–0.6 m,2025年3月23日9:00–16:00,共788张JPG图像,涵盖多目标、重叠、高光、低光、叶遮、茎枝遮、模糊、复杂背景等条件),使用LabelImg标注为YOLO格式,统一resize至640×640 RGB,按未变色(未熟)、开始转色(半熟)、完全转色(成熟)三阶段分类。通过Albumentations库进行离线数据增强:垂直翻转、水平翻转、亮度调整,将数据集扩为3152张,按8:2划分为训练集与验证集。
以YOLOv8s为基线,研究人员:(1)用优化FasterNet替换原骨干(移除原FasterNet末层全局平均池化、1×1卷积与全连接分类头,保留输出富含语义与空间细节的特征图);(2)设计LB Neck:集成C2f-LS模块(以LS Block替代C2f内部Bottleneck,LS Block含3×3深度可分离卷积+SE通道注意力及大核感知(LKP)+小核聚合(SKA)的LS卷积)与BiFPN双向加权特征金字塔;(3)嵌入多尺度坐标动态注意力(MCDA):混合感知池化(全局平均池化+水平/垂直坐标一维自适应平均池化融合)生成具位置敏感性的上下文描述子,通过轻量MLP(1×1卷积降维–SiLU–1×1卷积扩维)生成全秩动态卷积核,特征分支以标准3×3深度可分离卷积+空洞率2的3×3空洞深度可分离卷积相加融合,再通过动态分组卷积交互与Sigmoid生成注意力权重图,经逐元素乘法重校准特征。
实验平台:训练于Intel Xeon Silver 4214R CPU+NVIDIA RTX 3080Ti(12 GB),PyTorch 2.1.2, Python 3.10, CUDA 11.8;边缘部署验证采用Rockchip RK3588开发板(八核Cortex-A76+A55, NPU峰值6 TOPS, MCIMX415工业相机, 5.5英寸1080p MIPI屏)。训练策略:200 epoch, batch=16, Adam优化器, lr=0.01, weight decay=0.0005;部分实验以不同随机种子独立重复3次,Student’s t检验(p<0.05)。评估指标:Precision, Recall, F1, mAP@50, mAP@50–95, GFLOPs, Params, 模型大小(MB)。
研究结果
4.3 数据增强方法性能
研究人员在相同设置下用原始与增强数据集训练YOLOv8s。原始数据集上YOLOv8s达Precision=79.00±1.68%, Recall=78.37±2.17%, mAP@50=84.73±0.40%, mAP@50–95=60.47±0.21%;各类别(未熟/半熟/成熟)Precision分别为84.27±1.29%/80.63±2.68%/72.20±1.15%,Recall为84.43±0.91%/74.53±4.27%/76.17±2.31%,mAP@50为89.13±0.15%/84.73±0.35%/80.33±0.80%,mAP@50–95为60.80±0.17%/61.03±0.35%/59.40±0.36%。增强后整体Precision=91.40±0.17%, Recall=89.63±0.32%, mAP@50=95.47±0.15%, mAP@50–95=76.50±0.00%;三类Precision为89.90±0.46%/90.30±0.20%/94.07±0.32%,Recall为93.40±0.50%/91.20±0.17%/84.43±1.19%,mAP@50为96.03±0.15%/95.40±0.10%/94.87±0.47%,mAP@50–95为75.53±0.31%/77.17±0.12%/76.83±0.31%。增强数据集下所有指标与成熟度类别均值更高,标准差更小,t检验显示显著差异(p<0.05)。结论:所采用的数据增强策略提升了YOLOv8s对番茄成熟度识别的检测性能与训练稳定性。
4.4 消融实验
以YOLOv8s为基线,逐步叠加改进:Model1(引入FasterNet骨干)→Model2(Model1+C2f-LS)→Model3(Model2+BiFPN)→YOLO-FLBM(Model3+MCDA)。结果:YOLOv8s: P=91.5%, R=89.4%, mAP@50=95.5%, mAP@50–95=76.5%, Params=9.828 M;Model1: P=93.6%, R=91.6%, mAP@50=96.7%, mAP@50–95=78.2%, Params=4.784 M(+FasterNet提升多指标且参数量减5.044 M);Model2: P=94.8%, R=90.0%, mAP@50=96.7%, mAP@50–95=77.1%, Params=3.501 M(C2f-LS进一步提升精度并压缩参数,但Recall与mAP@50–95略降);Model3: P=94.8%, R=91.3%, mAP@50=97.2%, mAP@50–95=78.0%, Params=3.501 M(BiFPN在保持精度与参数量同时改善Recall与mAP@50–95);YOLO-FLBM: P=95.2%, R=91.9%, mAP@50=97.4%, mAP@50–95=78.9%, Params=3.743 M(MCDA再提升各指标,参数量微增0.242 M)。结论:轻量YOLO-FLBM显著优于原YOLOv8s,在Precision(+3.7%), Recall(+2.5%), mAP@50(+1.9%)提升的同时,参数量降至3.743 M(?61.91%),兼顾压缩与精度。
4.5 轻量骨干网络性能对比
在相同条件下将原YOLOv8s骨干替换为EfficientViT、MobileNetV3、ShuffleNetV2、GhostNet、FasterNet对比。YOLOv8s: mAP@50=95.5%, Params=9.828 M, GFLOPs=23.5。EfficientViT: P=93.5%, R=90.8%, mAP@50=96.1%, GFLOPs=15.3, Params=7.084 M;MobileNetV3: mAP@50=94.3%, GFLOPs=14.3, Params=6.708 M(轻量但特征提取弱);ShuffleNetV2: mAP@50=95.2%, mAP@50–95=74.2%, GFLOPs=11.3, Params=5.085 M(更激进轻量,精度略降);GhostNet: mAP@50=95.6%, mAP@50–95=75.6%, GFLOPs=15.5, Params=6.973 M(计算降约34%,总体性能略妥协);FasterNet: P=93.6%, R=91.6%, mAP@50=96.7%, mAP@50–95=78.2%, GFLOPs=11.1, Params=4.784 M(参数量最小,计算次低,综合精度最高)。结论:FasterNet通过更高效卷积操作,在显著压缩模型同时保持高检测性能,实现模型复杂度与检测精度的最优平衡。
4.6 注意力模块对比实验
在同一位置分别嵌入SE、ELA、EMA、CBAM、SimAM、MCDA于Model3对比。Model3: P=94.8%, R=91.3%, F1=0.930, mAP@50=97.2%, mAP@50–95=78.0%, Params=3.501 M。+SE: R=92.9%(最高), P=93.2%(?1.6%), mAP@50=96.9%, Params=3.544 M;+CBAM: mAP@50=96.3%, Params=3.846 M(参增且降效);+ELA/+EMA: 无明显增益;+SimAM: Params=3.501 M(不变), P与mAP@50略降;+MCDA: P=95.2%, R=91.9%, F1=0.935, mAP@50=97.4%, mAP@50–95=78.9%, Params=3.743 M(综合最优)。结论:MCDA在略微增加参数量下显著提升检测精度,被选为研究核心注意力模块。
4.7 注意力模块不同插入位置影响
将MCDA插入Neck不同特征层级(C2f-LS后记为-1至-4,-4最深)。仅-4: P=93.7%, R=91.6%, mAP@50=96.8%, mAP@50–95=77.1%, Params=3.680 M(单尺度深层增益不显,P甚至低于基线);-3+-4: P=94.5%, R=91.8%, mAP@50=97.6%(最高), mAP@50–95=78.1%, Params=3.729 M;-2+-3+-4: P=95.2%, R=91.9%, mAP@50=97.4%, mAP@50–95=78.9%, Params=3.743 M;全位置(-1~?4): P=94.5%, R=92.9%, mAP@50=97.5%, mAP@50–95=78.3%, Params=3.791 M(参最大,P与mAP@50–95反而降)。结论:在中深层(-2,-3,-4)多位置集成MCDA最大化特征提取能力,并在参数量与检测精度间取得最佳平衡;过浅层过早引入注意力可能压缩空间维度、过度过滤底层特征,损失关键语义信息。
4.8 与其他主流模型对比实验
在相同自定义数据集上对比RT-DETR-R18、DEIM、YOLOv5s、YOLOv8s、YOLO11s、YOLO12s、YOLO13s、YOLO26s、PC-YOLO11s及YOLO-FLBM。结果:RT-DETR-R18: P=81.0%, R=77.8%, mAP@50=81.3%, Params=19.875 M, Size=40.6 MB;DEIM: P=94.3%, R=86.8%, mAP@50=96.2%, Params=3.720 M, Size=7.8 MB;YOLOv5s: P=90.3%, R=89.1%, mAP@50=94.7%, Params=7.822 M, Size=16.0 MB;YOLOv8s: P=91.5%, R=89.4%, mAP@50=95.5%, Params=9.828 M, Size=19.9 MB;YOLO11s: P=90.8%, R=89.0%, mAP@50=94.8%, Params=9.413 M, Size=19.2 MB;YOLO12s: P=91.2%, R=88.6%, mAP@50=95.2%, Params=9.232 M, Size=18.9 MB;YOLO13s: P=89.9%, R=89.4%, mAP@50=95.2%, Params=9.002 M, Size=18.6 MB;YOLO26s: P=89.1%, R=87.2%, mAP@50=93.9%, Params=9.466 M, Size=20.3 MB;PC-YOLO11s: P=90.9%, R=91.0%, mAP@50=96.1%, Params=8.104 M, Size=16.8 MB;YOLO-FLBM: P=95.2%, R=91.9%, mAP@50=97.4%, mAP@50–95=78.9%, Params=3.743 M, Size=7.8 MB。结论:YOLO-FLBM在Precision、Recall、mAP@50上均优于其他算法,较YOLOv8s分别+3.7%、+2.5%、+1.9%,参数量仅为3.743 M(?61.91%),模型大小7.8 MB,在包括Transformer架构的先进检测器中综合性能更优,为番茄收获机器人视觉系统部署提供有价值参考。
4.9 模型可视化结果
在典型温室场景(叶遮、枝遮、强光、逆光、果实重叠)下对比YOLOv8s与YOLO-FLBM。YOLO-FLBM对部分遮挡果实检测更完整,正确检测目标置信度更高;强光与逆光下减少复杂背景干扰导致的误检。三次独立重复实验定量:YOLO-FLBM: P=95.30±0.26%, R=91.93±0.35%, mAP@50=97.47±0.31%, mAP@50–95=78.90±0.40%;YOLOv8s: P=91.40±0.17%, R=89.63±0.32%, mAP@50=95.47±0.15%, mAP@50–95=76.50±0.00%;t检验显著(p<0.05)。Grad-CAM热力图:基线模型热图分散,注意力偏向背景茎叶;YOLO-FLBM热力更集中锚定番茄区域,在物理遮挡与重叠下仍覆盖可见果轮廓并响应重叠区。结论:MCDA通过多尺度坐标感知捕获空间依赖,抑制背景噪声,增强对遮挡目标的特征捕捉,提升检测鲁棒性。
5 模型部署
研究选用RK3588开发板(八核Cortex-A76+A55, 最高2.4 GHz;NPU峰值6 TOPS;支持8K@60 fps硬件解码与高性能ISP;MCIMX415相机;5.5英寸1080p MIPI屏)。将训练好的YOLO-FLBM转换为RKNN格式进行硬件加速推理。工作站RTX 3080Ti上640×640输入下达408.74 FPS;RK3588嵌入式平台同分辨率下维持42.60 FPS,平均推理延迟约23.47 ms,内存消耗在板载资源限制内。系统在模拟农业环境下实现稳定实时番茄成熟度检测,可识别可收获目标并确定3D空间坐标,感知输出可直接接入机器人框架用于运动规划与机械臂对齐,构成自主番茄收获操作感知层基础组件。
讨论部分总结
研究人员指出YOLO-FLBM在复杂温室背景下保持高检测精度,通过FasterNet骨干、LB Neck(C2f-LS+BiFPN)与MCDA机制增强多尺度与遮挡目标特征提取,对实际温室管理与智能收获具关键优势:强环境鲁棒性(叶遮、果叠、光照变化),高推理效率与轻量设计适配资源受限设备,Precision与Recall提升减少漏检误检,降低作业误差提高收获效率。
研究局限:(1)成熟度分类目前为未熟/半熟/成熟三档,对应生物连续过程较粗,未完全对应用商业物流更细分级(如NY/T 940-2006六档),未来将扩展数据集以细粒度成熟度指标,支持更精细选择性收获策略;(2)统计验证主要在YOLOv8s与YOLO-FLBM间于当前番茄成熟度数据集以不同随机种子三次独立运行与t检验完成,鲁棒性需在更大规模数据集、更多样温室环境及附加独立试验中进一步检验,未来将拓展至多数据源与更复杂部署场景;(3)虽在RK3588上验证实时推理,但主要在静态实验室条件下,检测模块尚未完全集成到物理收获机器人闭环控制用于动态田间作业,机械手速度引起的运动模糊、机械振动、末端执行器协调延迟等尚待量化,下一阶段将挂载RK3588视觉系统至自主收获机器人,在动态真实作业条件下严格验证鲁棒性;(4)方法目前限定于温室番茄成熟度检测,其他茄科作物(辣椒、茄子)虽生长特征具相似视觉表现,但是否可迁移需进一步研究;同样,拓展至开放田间(比温室更不受控多变光照)亦具价值以确立方法更广实用性与鲁棒性。
研究结论(翻译)
为有效应对复杂环境干扰(如叶遮与果叠)与实时番茄成熟度检测计算资源受限的双重挑战,本研究首先构建了面向复杂温室环境的番茄成熟度数据集。所采集图像包含密集果分布、果实遮挡、背景干扰与自然光照变化等典型温室扰动;但数据集未按光照等级显式标注,因此未单独评估低光/正常光/高光下模型性能。基于此数据集,研究人员提出一种改进的轻量高性能检测模型YOLO-FLBM。该模型使用优化FasterNet架构重构原骨干网络,通过C2f-LS与BiFPN双优化策略实现新型LB Neck,并引入所提多尺度坐标动态注意力(MCDA)机制进一步优化。YOLO-FLBM模型达成Precision=95.2%、Recall=91.9%、mAP@50=97.4%,参数量仅3.743 M。结果表明,YOLO-FLBM显著优于基线YOLOv8s,参数量减少61.9%,同时检测平均精度(mAP@50)提升1.9%、Recall提升2.5%。这些发现证实,YOLO-FLBM模型在复杂温室环境下不仅保持高番茄检测精度,且具备高紧凑性,适用于资源受限设备。
未来研究将聚焦于进一步优化YOLO-FLBM架构以扩展适用性。计划用更多涵盖多样成熟度阶段与光照条件的图像扩充数据集,增强模型泛化能力;特别是将构建具显式光照等级标注的数据集,以系统评估模型在多光照环境下的鲁棒性。最终目标是将此系统部署于运行的番茄收获机器人上,为智慧精准农业提供可靠高效的视觉感知方案。