面向复杂田间草莓物候期识别的基于多尺度注意力与形状感知损失（Shape-Normalized Wasserstein Distance Loss, Shape-NWD Loss）的任务专用轻量化检测架构——HCMS-Net

《Frontiers in Plant Science》：A task-specific architecture with multi-scale attention and shape-aware loss for strawberry phenophase recognition in complex fields

【字体：大中小】 时间：2026年06月22日 来源：Frontiers in Plant Science 4.8

编辑推荐：

　　为解决复杂田间环境下草莓微小目标识别困难及物候期精准感知难的问题，本研究提出一种端到端轻量化检测架构HCMS-Net。骨干网络采用融入多尺度卷积注意力（Multi-Scale Convolutional Attention, MSCA）机制的残差高效层聚合网络

为解决复杂田间环境下草莓微小目标识别困难及物候期精准感知难的问题，本研究提出一种端到端轻量化检测架构HCMS-Net。骨干网络采用融入多尺度卷积注意力（Multi-Scale Convolutional Attention, MSCA）机制的残差高效层聚合网络（Residual Efficient Layer Aggregation Network, R-ELAN），以增强对区分关键物候相所需细微颜色与纹理变化的关注；特征融合阶段引入超图卷积（源自HyperC2Net）与混合聚合网络（Mixed Aggregation Network, MANet），对草莓簇状形态建模并强化稀疏小果实的特征表示；检测头嵌入轻量级Conv2Former模块以获取各生长阶段间的长程依赖与空间上下文信息，从而增强模型对连续物候变化的表征能力；同时采用形状归一化Wasserstein距离（Shape-Normalized Wasserstein Distance, Shape-NWD）损失函数以稳定微小像素偏差下的优化过程。实验结果表明，HCMS-Net的平均精度均值（mean Average Precision, mAP）达94.9%，F1分数达90.0%；开花期、幼果期、绿果期、转色期及成熟期的各类平均精度（Average Precision, AP）分别达99.3%、88.3%、90.9%、97.0%和98.2%。热力图证实HCMS-Net在所有五个物候阶段均具有精确注意力聚焦能力，可有效抑制无关背景。与十种主流检测器相比，HCMS-Net的mAP较RT-DETR及YOLOv5n至v13n高出3.4～8.0个百分点，甚至超越参数量为自身3.05倍的YOLOv12s达2.7个百分点，而参数量仅为YOLOv12s的32.86%。该模型为物候期检测提供了高精度与高效率的解决方案，可支持选择性采收与智能农业管理。

论文解读：HCMS-Net在复杂田间草莓物候期识别中的研究与验证（《Frontiers in Plant Science》）

一、研究背景与意义

草莓具有较高的营养与经济价值，其不同生长阶段（物候期：开花、幼果、绿果、转色、成熟）需针对性农艺措施（施肥、灌溉、疏花、病虫害防治、分批采摘）以降本增效。传统依赖人工经验的判断方式主观性强且工作量大。基于计算机视觉的深度学习方法虽已被应用于果树检测，但在复杂非结构化农田环境中，草莓果实体积小易导致特征丢失或淹没（小目标检测 Small Object Detection, SOD问题），且相邻物候期间外观差异细微易混淆。现有SOD改进方法或忽略上下文结构特征，或在噪声图像中模糊可靠性，且多数物候识别模型在高密度遮挡场景下存在特征范数衰减与特征淹没问题。为此，研究人员以自采"红颜"草莓数据集为基础，开展针对草莓五分类物候期的高精度轻量化检测研究，提出HCMS-Net模型，旨在解决SOD与细粒度物候分类难题，为精准农业提供技术支撑。论文发表于《Frontiers in Plant Science》。

二、主要关键技术方法

研究人员采集山西省晋中市太谷区聚信现代农业园"红颜"草莓全生长期（2025年3月—5月）多时段多条件图像共5670张，按8:1:1划分训练/验证/测试集，由专业人员参照NY/T 2693-2015与GB/Z 26575-2011标注五类物候期（Flower、Early、Green、Turning、Ripe）。以YOLOv12n为基线，构建HCMS-Net：（1）Backbone：R-ELAN（Residual Efficient Layer Aggregation Network）结合A2C2f模块，并在第9层嵌入多尺度卷积注意力（Multi-Scale Convolutional Attention, MSCA）进行空间自适应特征选择与增强；（2）Neck：引入HyperC2Net的超图卷积（Hypergraph Convolution）构建跨层跨位置高阶关联，配合混合聚合网络（Mixed Aggregation Network, MANet）进行特征精化；（3）Head：嵌入轻量Conv2Former模块，通过大核卷积调制建立长程依赖并捕获空间上下文；（4）Loss：边界框回归采用形状归一化Wasserstein距离（Shape-Normalized Wasserstein Distance, Shape-NWD）损失替代CIoU，引入形状相关权重与尺度自适应距离度量。所有对比模型在相同软硬件环境（NVIDIA RTX 5090, PyTorch 2.8.0等）及5折交叉验证下评估。

三、研究结果

3.1 实验配置（Experimental configuration）

研究人员采用Windows 11系统、NVIDIA RTX 5090（32GB VRAM）、Intel Core U9-285K、64GB RAM，软件环境为Python 3.11.5、CUDA 12.8、PyTorch 2.8.0。训练设置：batch size=512，初始学习率0.01，动量0.9，权重衰减0.0005，训练100轮，输入尺寸640×640，Shape-NWD损失权重α=β=0.5，置信度阈值0.25，NMS的IoU阈值0.7。采用5折分层抽样交叉验证确保结果可靠性。

3.2 跨层级视觉特征融合实验（Experiment on cross-level visual feature fusion）

研究人员对比将HyperC2Net（记为+Hyper_YOLO）、EfficientViMBlock、Gold-YOLO、HSFPN、WFU、ASF-YOLO、SEAM、GFPN分别嵌入Neck的效果。结果表明Hyper_YOLO取得最高mAP（92.3%）与F₁（88%），且模型体积与FLOPs（Floating Point Operations Per Second, 每秒浮点运算数）低于Gold-YOLO，因此选其作为基线改进命名为H-Net。

3.3 注意力机制对比实验（Attention mechanism comparison experiment）

研究人员在H-Net基础上对比嵌入MSCA、H-RAMi、PPA、MCA、CAFM、FCA、NAM的效果。MSCA在不显著增加参数量（Params）与FLOPs前提下使mAP升至94.6%、mAP@.5:.95升至71.9%，优于其余注意力模块，改进后模型命名为HM-Net。

3.4 不同检测头性能影响（Performance impact of different detection heads）

研究人员对比在HM-Net检测头中替换ASFF、Conv2Former、DyHead、MBConv、D_PPA的效果。Conv2Former在保持mAP（94.6%）同时使F₁微升至90%，且Params降至2.99M、FLOPs降至8.4G、模型体积降至6.4MB，分布最集中，故选用Conv2Former，改进后模型命名为HCM-Net。

3.5 不同损失函数对模型的影响（The influence of different loss functions on the model）

研究人员对比CIoU、DIoU、GIoU、ATFL、SD Loss、Shape-IoU、Shape-NWD、Focaler系列、WIoU、NWD-IOU、Slideloss共13种损失函数。Shape-NWD使HCM-Net的mAP达最高94.9%，mAP@.5:.95达71.9%，显著优于其余损失，最终完整模型定名为HCMS-Net。

3.6 消融实验结果与讨论（Ablation experiment results and discussion）

3.6.1 消融实验表明逐模块叠加（HyperC2Net→+MSCA→+Conv2Former→+Shape-NWD）使mAP从92.3%逐步升至94.9%，F₁从88%升至90%，Params与FLOPs最终为2.99M与8.4G。Conv2Former与Shape-NWD联合增益（1.8%）大于各自单独增益之和（1.0%+1.1%），证明二者存在"特征–优化"闭环协同效应：Conv2Former抑制背景噪声提供清晰特征图，Shape-NWD据此计算稳定分布梯度精确监督微小目标几何，反过来Shape-NWD的精确梯度进一步锐化Conv2Former对边界区域的注意。各类物候期AP分别为Flower 99.3%、Early 88.3%、Green 90.9%、Turning 97.0%、Ripe 98.2%。

3.6.2 可视化分析（Visualized analysis）：HiRes-CAM热力图显示HCMS-Net激活区域紧密贴合草莓果实轮廓与萼片–果皮过渡带等关键判别区域，基线YOLOv12n则呈弥散激活含大量背景，验证了MSCA抑制背景与Shape-NWD引导关注边界的有效性。

3.6.3 HCMS-Net协同机制（Synergistic mechanism of HCMS-Net）：非加和性增益源于梯度层面的相互作用——Shape-NWD关于特征图的梯度正比于Conv2Former的空间注意权重，干净特征图使梯度更精准锁定目标边界，形成双向增强优化环路。

3.7 主流网络对比实验（Comparative experiment on mainstream networks）

研究人员在相同设置下对比RT-DETR-R18、YOLOv3tiny、YOLOv5n、v8n、v9tiny、v10n、v11n、v12n、v13n、v12s、LUD-YOLO、SOD-YOLO及HCMS-Net。HCMS-Net获mAP 94.9%±0.3%、mAP@.5:.95 71.9%±0.4%、F₁90%，超越次优YOLOv12s（mAP 92.2%）2.7个百分点且参数量仅为其32.86%（2.99M vs 9.10M），各物候期AP均高于或持平主流模型，幼果期AP提升尤为明显（88.3% vs 最高84.2%）。

3.8 误差分析与讨论（Error analysis and discussion）

归一化混淆矩阵显示误分主要集中在相邻物候阶段（Green→Early 8%，Ripe→Turning 5%），非相邻阶段近零混淆，符合连续发育光谱特性。典型失败案例包括转色果红色斑块<10%表被误判为绿果，及>70%重度遮挡果实漏检。

3.9 跨域泛化验证（Cross-domain generalization performance validation）

用草莓预训练HCMS-Net在独立冬枣数据集上测试：零样本直接迁移因类别空间不匹配mAP极低（3.8%）；用10%冬枣数据微调HCMS-Net达mAP 77.7%，超过基线H-Net（69.5%）及所有YOLO对比模型，且超越部分YOLO模型50%数据微调结果；全量微调达96.2%，验证所学特征具强迁移性。

四、讨论与结论总结（Conclusion）

研究人员构建覆盖草莓五物候期的真实场景数据集，基于YOLOv12n融进HyperC2Net超图卷积（跨层高阶语义关联补偿小目标特征不足）、MSCA多尺度卷积注意力（空间自适应特征增强）、轻量Conv2Former检测头（大核卷积长程依赖与上下文建模型）及Shape-NWD损失（形状与尺度感知的距离度量稳定SOD优化）。经5折交叉验证，HCMS-Net取得mAP@.5为94.9%（较基线YOLOv12n提升4.1%）、mAP@.5:.95为71.9%（提升10.4%）、F₁为90.0%（提升4.0%）；五类物候期AP分别较基线提升1.0%、7.5%、6.4%、3.9%、0.8%；模型尺寸6.4MB、FLOPs 8.4G、参数量2.99M，实现精度与效率的良好平衡。局限在于极端光照天气泛化待提升、重度遮挡下仍有漏检、需进一步轻量化以适应移动端部署，未来拟引入多视角标注、遮挡感知数据增强、半监督学习及深度/高光谱多模态信息融合以提升鲁棒性。该研究证明了所提架构在复杂田间草莓物候期精准识别中的有效性，对作物长期监测与智慧农业应用具有重要实践意义。

热点排行