玉米(Zea mays)是世界主要的主粮作物之一,其高生物量生产力使得高效收割对于减少损失和保持谷物质量至关重要(Tang等人,2024年)。在联合收割机作业过程中,进料速率(主要由前进速度决定)会显著影响籽粒破损、杂质含量和作业稳定性。过高的进料速率会超出脱粒和清洁单元的处理能力,而进料速率过低则会降低田间效率(Chen等人,2025年)。传统的基于压力或速度的警报系统通常只有在过载发生后才会响应(Sun等人,2022年),因此几乎没有主动调整的空间。随着相机和激光雷达在精准农业中的广泛应用(Bao等人,2019年),在收割头前方实时估算作物密度为预测性进料速率控制和减少损失提供了有力支持(Prem等人,2024年)。
基于视觉的方法提供了一种低成本的解决方案,但密集种植的成熟玉米存在显著的感知挑战。叶片重叠严重、形态高度相似以及边界模糊,即使对于人类观察者也难以区分单个植株。传统的2D算法在许多作物识别任务中表现良好(Wei等人,2023年),但在强遮挡条件下会系统性地低估植株数量(Jegham等人,2024年)。激光雷达能够提供精确的3D距离信息,但成本较高,且对稀疏叶片或部分遮挡的器官不够敏感(Luo等人,2024年)。深度相机以较低成本同时捕获颜色和深度信息,是一种实用的折中方案;然而,移动收割机上的单视图感知存在盲区、距离伪影和振动引起的质量下降问题。这些限制促使人们采用多视图深度感知技术,以获得更完整和可靠的3D表示。
在田间应用中,多个深度相机被固定安装在收割头上方,机器的前进运动自然会产生每个视角的连续帧。利用多视图、多帧数据可以补偿遮挡现象,提高穗部、叶片和茎部区域的几何覆盖范围(Luo等人,2022年)。然而,实际的收割条件仍给多视图方法带来了挑战:首先,底盘振动和不平坦的地形会导致时间和视角间的姿态漂移;因此,如果没有明确的姿态建模,多视图融合会变得不稳定,产生不一致的点云。其次,堆叠多视图帧会产生密集且冗余的点集。常见的降采样方法(如随机采样(Zhao等人,2024年)、体素平均(Chao等人,2025年)和八叉树平均(Li等人,2026年)虽然可以减小数据量,但常常会丢失对形态识别至关重要的结构信息。此外,即使拥有高质量的点云,由于成熟玉米具有垂直分层且纹理重复的特点,植株计数仍然困难。现有的深度学习网络很少结合结构先验或特征分离机制,导致穗部、叶片和茎部特征之间的混淆,尤其是在标记数据有限的情况下。
这些挑战表明了一个明显的空白:目前尚无方法能够提供一个多视图、多帧的深度相机框架,能够在成熟玉米的密集遮挡条件下实现稳健的融合、结构保留的压缩和准确的计数。现有研究通常只解决了一两个子问题,未能形成一个适合实时田间应用的集成流程。
以往的研究仅部分解决了这些问题。对于多视图融合,基于ICP的配准方法(Besl & McKay,1992年)可以直接对齐点云,但对初始姿态和异常值敏感。卡尔曼滤波器的变体通过噪声建模和在线校准提高了移动农业平台的鲁棒性(Ding等人,2024年;Lv等人,2022年;Zhang & Fu,2024年)。以姿态为中心的算法强调估计相机姿态而非原始点(Noor等人,2022年)。这些研究突出了明确姿态建模的重要性,但很少考虑收割机强烈的振动和多相机之间的刚性约束。
点云压缩方法包括几何方法和基于学习的策略。随机采样和体素网格方法高效简单(Chao等人,2025年;Zhao等人,2024年),而八叉树方法能更好地适应密度变化并保持全局结构(Li等人,2026年)。基于学习的采样方法通过显著性或注意力机制选择关键信息点(Huang等人,2022年;Wu等人,2023年),体现了任务感知压缩的价值。然而,几何方法往往过度平滑密集作物区域或忽略视角差异,而基于学习的方法计算成本较高,不适合嵌入式应用。因此,有效的压缩需要平衡几何保真度、任务相关性和计算效率。
在计数及相关感知任务中,基于CNN的方法(如Zhao等人,2024年;Lv等人,2024年)以及代表性模型(包括RPNet(Bai等人,2023年)、SANet(Zhu等人,2023年)和TasselNetV2++(Xue等人,2024年)证明了多尺度表示在2D图像中对密集目标的有效性。在3D领域,Counting-MOT(Ren等人,2022年)、Point2Graph(Xu等人,2025年)和PointCT(Tran等人,2024年)通过图推理和注意力机制提高了实例级别的理解。基于物理的信息网络将物理约束嵌入学习过程(Raissi等人,2019年;Toscano等人,2025年),而通道-空间注意力机制增强了复杂场景中的特征选择(Cai等人,2025年;Si等人,2025年)。这些研究展示了结构先验和注意力的价值,但尚未有方法明确针对成熟玉米冠层的严重遮挡、分层形态和多视图特征的组合问题。
为了解决这些问题,本研究的目标如下:(1)提出一个抗振动的时空融合模块,稳定深度相机的姿态并生成几何一致的堆叠点云;(2)开发一种自适应的八叉树降采样方法,结合时间、视角、距离和曲率信息,既能保持形态关键结构,又能实现高效压缩;(3)开发一个具有形态感知能力的3D计数网络,通过分层表示、多尺度3D注意力和轻量级结构先验来分离穗部和茎叶层的特征。
通过在单一连贯框架内同时解决融合、压缩和计数问题,本研究超越了现有的基于2D图像或单一模块的方法,为实际收割条件提供了统一的解决方案。
通过将抗振动的多视图融合、结构保留的自适应点云压缩和形态感知的3D计数集成到单一数据处理流程中,预计本研究将提高田间条件下玉米植株密度估计的准确性和鲁棒性,同时为下游的进料速率控制和相关决策提供更可靠的感知输入。