《Smart Agricultural Technology》:Review of Automatic Row Alignment Technology for Intelligent Agricultural Machinery in the Field
编辑推荐:
本文系统综述了田间智能农机自动对行技术的研究进展,涵盖了从接触式、视觉、激光雷达到多传感器融合的环境感知技术,比较了从传统图像处理到深度学习等作物行识别方法的实时性、鲁棒性与泛化能力,并分析了基于模型与数据驱动的跟踪控制策略。此外,文章探讨了Transformer架构、端到端导航、视觉-语言模型和具身智能等新兴趋势,旨在为相关系统的研发与工程应用提供技术参考。
田间智能农机的自动对行技术是实现精准农业与无人化作业的重要基石。其核心任务是在复杂多变的农田环境中,稳定、准确地提取作物行信息,并引导农机沿目标行线行驶。这并非单一的感知或控制问题,而是一个融合了环境感知、信息处理与运动控制的综合系统。
环境感知技术
环境感知是自动对行系统的“眼睛”。感知方案已从单一传感器发展为多传感器协同系统。
- •
接触式传感器:作为早期应用手段,其通过物理接触获取相对位置信息,成本低、结构简单且不受光照影响,适用于行线规则、低速作业场景。然而,其存在固有延迟、信息有限,在现代智能农机中多作为补充方案。
- •
视觉传感器:凭借信息丰富、成本相对较低等优势被广泛应用。主要包括单目相机、立体视觉相机、结构光相机和飞行时间(Time-of-Flight, ToF)相机等类型。单目相机成本低、部署易,是应用最广的视觉感知方法,但在杂草干扰或作物倒伏时性能下降。立体视觉系统可计算场景深度,在行距估计、作物高度区分和地形建模方面有优势,但对光照和纹理变化敏感。ToF相机通过光的飞行时间直接测距,实时性好,但受阳光影响大,测量距离短。
- •
激光雷达(LiDAR):提供稳定的空间几何信息,广泛用于作物行提取和环境建模。可分为单线、多线和固态激光雷达。单线激光雷达结构简单,常用于检测行边界;多线激光雷达能生成密集三维点云,为作物行结构提取提供更丰富信息,但在高杆作物(如玉米、高粱)环境中表现出色;固态激光雷达无机械扫描,在紧凑性和抗振性上有优势,但视场和点云密度有限。
- •
多传感器融合:为克服单传感器的局限,融合视觉、激光雷达、惯性测量单元(Inertial Measurement Unit, IMU)、全球导航卫星系统(Global Navigation Satellite System, GNSS)等信息的方案逐渐成为重要发展方向。融合可在数据层、特征层或决策层进行,虽增加了系统成本和复杂性,但为复杂农田环境下的自动对行提供了更可靠的感知基础。
信息处理与作物行识别
从环境感知数据中准确提取作物行信息直接决定对行精度。
- •
传统视觉方法:早期研究主要基于颜色、纹理和几何特征。例如,通过颜色空间转换和植被指数(如超绿指数(Excess Green, ExG))进行分割,或使用霍夫变换(Hough Transform)、随机抽样一致(Random Sample Consensus, RANSAC)等算法进行线拟合。这些方法计算高效,但在光照变化、阴影或光谱对比度弱时性能显著下降。
- •
深度学习方法:已成为视觉作物行提取的主导范式。
- •
基于目标检测的方法:如YOLO、SSD等单阶段检测器,能快速定位作物行或植株簇,但需后处理拟合中心线,且边界框仅提供粗略空间表示。
- •
基于语义分割的方法:如U-Net、DeepLab系列,提供像素级语义标签,能捕获作物行的细长连续结构,已成为主流。但面临标注成本高、计算需求大等挑战。
- •
基于实例分割的方法:如Mask R-CNN,同时提供像素级分类和实例级分离,能清晰区分多个行实例,但在标注成本和计算需求方面挑战更大。
- •
激光雷达行感知方法:处理流程包括点云预处理(去噪、下采样、地面分割等)和行特征提取。常用线拟合(如最小二乘法、RANSAC)或聚类(如DBSCAN、欧几里得聚类)结合的方法来估计行线。为处理缺苗、断行等挑战,一些研究将单行检测与历史观测结合,使用卡尔曼滤波等方法动态更新行中心线。
跟踪控制技术
跟踪控制将感知到的行结构转化为可执行的控制指令。
- •
控制模型:主要包括运动学模型和动力学模型。运动学模型(如两轮模型、阿克曼模型、差速驱动模型)忽略侧滑等因素,较为简单;动力学模型则考虑了轮胎侧偏刚度、横向/纵向力等,精度高但建模复杂。
- •
基于模型的控制算法:
- •
几何跟踪控制:如纯追踪(Pure Pursuit, PP)和斯坦利(Stanley)控制,基于农机与路径的几何关系进行计算,在低速度、高附着力路面表现良好,但忽略轮胎滑移等动力学因素。
- •
模型预测控制(Model Predictive Control, MPC):通过在线滚动求解有限时域优化问题进行控制,在处理多变量系统和约束方面有优势,但计算复杂度高,实时性挑战大。
- •
线性二次型调节器(Linear Quadratic Regulator, LQR):适用于线性系统,结构简单、计算量低,但需要对非线性农机模型进行线性化。
- •
滑模控制(Sliding Mode Control, SMC):通过设计滑模面进行控制,对系统不确定性和外部干扰鲁棒性强,但存在固有的抖振问题。
- •
无模型控制算法:
- •
比例-积分-微分(Proportional-Integral-Derivative, PID)控制:经典负反馈控制,算法简单可靠,但参数整定困难,对环境变化敏感。
- •
模糊控制:基于模糊逻辑和专家规则,适合非线性、不确定系统,但设计依赖经验,难以保证精度和全局最优。
- •
神经网络控制:数据驱动,无需显式输入输出模型,适应性和非线性映射能力强,但依赖训练数据质量和覆盖范围。
- •
混合控制:结合不同控制器的优势,例如用模糊自适应动态调整纯追踪的前视距离,或结合PID与模糊逻辑、神经网络形成模糊PID、神经网络PID等,以提升系统在复杂农业环境中的适应性和性能。
新兴技术的工程应用前景
- •
Transformer架构模型:其自注意力机制能显式捕获长程空间依赖,非常适合表示作物行的细长连续结构,可用于时序一致性建模和多传感器信息融合。但计算成本高,当前常将注意力机制与卷积神经网络(Convolutional Neural Network, CNN)框架结合,或借助轻量化Transformer和边缘AI芯片提升部署可行性。
- •
端到端导航方法:直接通过深度神经网络将传感器输入映射为控制输出,简化了系统结构,减少误差传播,并对复杂非结构化环境有更强适应性。然而,其可解释性差,严重依赖训练数据,且缺乏极端条件下的安全冗余。
- •
视觉-语言模型(Vision-Language Model, VLM):强调对复杂场景的语义理解、任务意图解析和知识迁移能力,可用于农田语义感知、异常场景推理及基于自然语言的人机交互。高计算成本限制其实时部署,更可行的应用是将其作为决策模块,与轻量级实时感知模型协同工作。
- •
具身智能(Embodied Intelligence):强调智能体通过感知-决策-行动的闭环交互进行持续学习,与农机在复杂环境中长期自主运行的需求高度契合。它将对行视为整体决策过程,支持交互驱动学习和任务泛化。实践中常采用“具身学习+规则约束”的混合策略以确保安全。
自动对行技术正朝着更集成、更智能、更适应复杂环境的方向发展。多传感器融合、深度学习与先进控制算法的结合,以及Transformer、端到端学习、VLM和具身智能等新范式的引入,将持续推动该领域技术进步,为实现高水平的无人化精准农业提供坚实支撑。