综述：面向无人机赋能精准农业的机器学习分类体系：一项结构化综述

《AgriEngineering》：A Taxonomy of Machine Learning for UAV-Enabled Precision Agriculture: A Structured Survey

【字体：大中小】 时间：2026年06月19日 来源：AgriEngineering 3

编辑推荐：

　　精准农业日益依赖将机器学习应用于无人机（Unmanned Aerial Vehicles, UAV）获取的高分辨率数据，以支持作物监测、胁迫检测及产量预测。本综述对面向无人机赋能精准农业的机器学习方法进行了结构化梳理，在一个统一的四维分类体系中整合了超过100

精准农业日益依赖将机器学习应用于无人机（Unmanned Aerial Vehicles, UAV）获取的高分辨率数据，以支持作物监测、胁迫检测及产量预测。本综述对面向无人机赋能精准农业的机器学习方法进行了结构化梳理，在一个统一的四维分类体系中整合了超过100篇同行评审研究，该体系由感知模态、数据类型、模型族系与分析任务四个维度构成。此分类体系支持对RGB、多光谱、高光谱、激光雷达（Light Detection and Ranging, LiDAR）及物联网（Internet of Things, IoT）数据源，以及经典机器学习、深度学习、混合序列模型和新兴基于Transformer的架构进行系统比较。研究人员分析了建模选择如何与数据特征相互作用，进而影响鲁棒性、跨环境泛化能力、计算效率以及在无人机与边缘平台上的部署可行性。当前反复出现的挑战包括标注数据有限、跨季节与田块的域偏移、多模态异质性、遮挡及实时处理约束。研究人员识别出若干新兴研究方向，涵盖数据高效学习、表征级多模态融合、域自适应、面向嵌入式部署的轻量化架构，以及不确定性感知的决策支持。通过统一分类体系对这一领域进行形式化梳理，本综述为设计下一代可扩展、鲁棒且可部署的精准农业机器学习系统奠定了基础。

1. 引言

精准农业（Precision Agriculture, PA）高度依赖无人机与数据驱动建模系统，以实现高分辨率作物监测、胁迫检测与产量预测。随着RGB、多光谱、高光谱、热成像及激光雷达（LiDAR）等感知平台的发展，结合机器学习与深度学习技术，农业数据的采集、处理与解读方式已发生深刻变革，支撑了可扩展的数据驱动决策，提升了生产力、资源利用效率与环境可持续性。

除作为应用场景外，精准农业呈现的一系列特性正深刻塑造人工智能（AI）方法的发展。农业环境中，AI系统面临随季节、品种及管理措施变化的强非平稳性，由生长阶段与物候引起的显著类内差异，以及健康与胁迫状态间的严重数据不平衡。这些属性挑战了基准驱动的计算机视觉与时间序列建模中常见的数据分布静态且标签充足的假设。

现有精准农业AI方法常局限于特定感知模态、单一作物或孤立的分析任务（如分割、病虫害检测、花果计数与产量预测）。多数综述仅侧重模型架构或感知技术，未能系统关联数据特征、模型设计与下游农业应用。这导致难以跨研究比较方法，也难以理解方法选择如何与无人机赋能精准农业的真实部署约束相互作用。为此，研究人员提出了三项研究问题：不同AI模型族系（如卷积神经网络（Convolutional Neural Networks, CNN）、Transformer、循环神经网络（Recurrent Neural Networks, RNN）及经典模型）在基于无人机的感知模态与农业任务中表现如何？哪些因素限制了AI预测在多变真实农业条件下的可靠性？如何将基于无人机的AI系统转化为面向作物监测与干预管理的可操作洞察？

与以往主要围绕单一感知平台、作物类型或模型架构组织的综述不同，本综述引入了一个统一的四维分类体系，在单一分析框架内联合关联感知模态、数据类型、模型族系与分析任务。该结构支持对原本孤立的研究进行系统比较，涵盖不同感知与部署条件下运行的分割、检测、计数与产量预测流程。所提出的分类体系也为设计可扩展且在操作上可行的无人机赋能农业分析系统提供了实践指导。

2. 背景与分类体系

2.1 背景与研究缺口

信息与通信技术、遥感及物联网的发展极大拓展了精准农业可用数据的范围。无人机与地面传感器提供作物与土壤状况的高分辨率测量，卫星平台则提供广阔时空覆盖。尽管这些技术支持数据驱动决策，但也给深度学习模型的设计与部署带来了多重挑战。数据采集是农业中深度学习模型与物联网系统的核心，传感器、无人机等设备收集病虫害、土壤属性、冠层结构、作物产量及温湿度等环境变量数据。可靠感知基础设施与通信网络对实时监测与控制至关重要。

高质量标注同样关键，准确标签使监督深度学习模型能够学习用于病虫害检测、诊断与作物健康监测的鲁棒表征。无人机影像的标注通常劳动密集且需要领域专业知识，尤其在处理细微症状或被遮挡植株部位时。植被胁迫检测的难点在于模型必须同时捕捉田间内变异与时间动态，而大规模、标注良好的数据集十分稀缺，在小数据集上训练的模型易过拟合或无法泛化至新田块。数据质量问题贯穿始终，农业数据在作物类型、区域与季节间差异显著，导致协变量偏移并降低模型性能。

综上，无人机赋能精准农业AI解决方案的发展持续受限于三大研究缺口：数据与泛化性——尽管无人机感知实现了高分辨率监测，但环境、品种与管理措施的显著差异限制了机器学习模型的泛化能力；数据质量与标注数据集稀缺——许多深度学习方法依赖大规模、标注一致的数据集，而这在实际精细农业任务中成本高昂且难以获取；运营部署与可扩展性——实际部署需要感知平台、数据基础设施与分析模型的稳健集成，这在许多精准农业系统中仍处于发展阶段。

2.2 无人机感知与精准农业机器学习的分类体系

为提供统一视角，研究人员从感知模态、数据类型、模型族系与分析任务四个互补维度组织方法。感知模态涵盖无人机载RGB、多光谱、高光谱、热成像与LiDAR传感器，卫星平台的多时相植被指数与光谱诊断，以及地面物联网传感器的微环境与作物观测，共同构成现代农业分析的多分辨率感知骨干。数据类型分为单帧二维影像、用于物候监测与时序预测的多时相影像序列、LiDAR或运动恢复结构（Structure from Motion, SfM）生成的3D点云、物联网的表格传感器与环境流，以及融合影像、光谱指数与地面测量的多模态数据集。模型族系包括经典方法（支持向量机（Support Vector Machines, SVM）、随机森林、模糊规则系统）与深度学习方法（CNN、残差网络（Residual Networks, ResNet）、U-Net、Faster R-CNN、Mask R-CNN、YOLO系列、LSTM、ConvLSTM及混合架构），近期注意力机制与Transformer架构进一步扩展了模型家族。分析任务则划分为分割、目标检测、分类、计数与回归型产量预测，直接对应论文各核心章节。

该四维分类体系揭示了清晰的范式规律：CNN与YOLO架构多依托无人机RGB影像，服务于实时检测与分割任务；Transformer与混合架构更多探索于多光谱与高光谱场景，以利用全局上下文建模优势，但仍受限于数据量与计算成本。RGB影像因空间分辨率高、获取便捷而在检测与计数任务中占主导，多光谱与高光谱数据则凭借光谱丰富性更多关联胁迫分析与产量预测。轻量CNN与YOLO变体始终是无人机与边缘部署的首选，计算密集型Transformer模型多在离线或云端评估。现有研究多依赖单一模态流程，跨无人机、卫星与物联网数据流的多模态集成仍十分有限，且多为后期融合或特征拼接，缺乏表征级融合框架。

2.3 端到端框架

分类体系描述了研究的结构维度，而实际系统以集成端到端流程运行。框架始于异构感知模态，经预处理、归一化、特征提取、降维与多模态集成，形成中间表征。分割常作为中间表征阶段，将影像划分为冠层、叶片、果实或病灶区域，支撑下游推理。随后应用任务专用模型，包括病虫害检测、花期识别、果实计数与产量预测，模型涵盖经典机器学习至深度卷积、循环与注意力架构。最终模型输出接入决策支持系统，实现无人机实时部署、边缘推理、自主喷洒、机器人采收或农场级产量预测。全流程受限于标注数据稀缺、跨季节与区域的域偏移、无人机平台计算限制及多模态数据异质性，凸显了集成系统设计的重要性。

3. 数据采集与预处理

3.1 数据采集

无人机感知因其高分辨率、灵活性与时效性成为核心，现代平台支持RGB、多光谱、高光谱、热成像与LiDAR载荷，详细刻画冠层结构、作物活力与微环境变异。LiDAR与SfM摄影测量提供树高、冠层体积与林分密度的三维重建。卫星影像则以更广空间覆盖与更长时序连续性补充无人机数据，多光谱与高光谱平台支持计算NDVI、EVI等植被指数，用于作物健康监测、胁迫检测与产量估算。地面物联网传感器提供土壤水分、温湿度等高频率田间观测，为影像解读提供局地上下文，支撑胁迫检测、灌溉调度与微气候评估。三类感知系统共同提供互补的时空与光谱信息，支撑多尺度、多模态数据集构建。

3.2 数据准备与预处理

数据准备将异构原始输入转化为适合学习算法的格式，包含归一化、特征提取、去噪、增强、降维与多模态集成。归一化减少光照、传感器特性与飞行配置引入的变异，像素级归一化提升了行栽作物的杂草分类性能，颜色归一化校正了果园与葡萄园中的阴影与物候变异。特征提取将原始数据转化为强调生物或结构线索的表征，植被指数（NDVI、ExG等）广泛用于区分植被与土壤并表征冠层活力，几何与纹理特征捕捉冠层形状、果实形态与空间格局。

数据清洗缓解传感器噪声、阴影、遮挡与背景杂乱，常用分割掩码、高斯与中值滤波及阈值法。增强策略（几何变换、光度调整与合成样本生成）对抗小样本或不平衡数据集，正则化技术（如Dropout）进一步降低深度模型过拟合。高维数据（尤其是多光谱与高光谱影像）常需PCA等方法进行降维，以降低计算成本并突显最具信息量的光谱特征。

多模态集成融合无人机影像、卫星观测与地面传感器流，提供作物与环境状况的整体视图。融合可发生在输入级（早期融合）、表征级（学习跨模态联合特征空间，近期注意力机制如交叉注意力可有效对齐异构源）与决策级（后期融合）。这些策略的选择直接影响下游任务的性能上限。

4. 分割方法与架构

分割是连接感知数据与下游任务的基础分析任务，将影像划分为有意义的区域，产生结构化空间表征。方法论范式涵盖阈值分割、颜色分割、纹理与形状分割、深度学习语义与实例分割，以及Transformer分割模型。阈值分割计算高效，但对光照变化敏感；颜色分割利用色彩空间差异，仍需归一化以应对环境变异；纹理与形状分割引入空间模式与几何先验，但在复杂场景中受限；深度学习分割（以U-Net及其变体为代表）通过学习分层特征，在叶片划分、杂草制图、病灶分割中表现出强鲁棒性；Transformer分割模型借助自注意力机制建模长程空间依赖，适合冠层结构与病害模式的全局关系建模，但数据需求与计算成本较高。

在架构层面，编码器-解码器网络仍是主流，多任务扩展与专用修改（如DF-U-Net）针对作物光谱与结构特性优化。Transformer与CNN架构各具优势：前者擅长全局上下文建模，后者在数据有限场景下更稳定。轻量化架构（如EDANet、ERFNet）平衡精度与计算效率，适配无人机与边缘部署。区域提议与迁移学习框架通过预训练骨干与微调提升小数据集下的性能。此外，多层感知机与多传感器融合等替代架构在特定场景下仍具竞争力。

5. 病虫害检测模型

病虫害检测主要依托单帧RGB影像，属于目标检测、像素级病灶分割或图像级分类问题，以区域检测器、单阶段检测器、编码器-解码器架构与微调卷积网络为主导。害虫检测中，Faster R-CNN与Mask R-CNN凭借区域提议机制实现小目标精确定位，YOLO系列单阶段检测器以速度见长，适配无人机与边缘设备，VGG、ResNet等卷积骨干则常用于无需边界框的分类任务。病害检测涵盖病灶分割与疾病分类，Inception ResNet-v2等混合架构捕捉多尺度病变模式，U-Net等编码器-解码器网络主导像素级病灶分割，2D CNN与VGG架构在分类任务中表现稳健，经典机器学习模型（如SVM）在数据稀缺或需可解释性时仍有价值。

6. 花期检测、果实计数与产量预测

三者构成递进的分析流程，花期强度与挂果量是最终产量的中间指标。花期检测支持物候监测与早期产量预报，DeepLab-ResNet结合空洞卷积与空间金字塔池化实现多物种花期分割，CNN结合SVM的混合流程在数据有限时仍保持高精度。果实计数支撑季内产量预估与疏果决策，早期方法依赖手工颜色与形状特征，现代深度检测器（如YOLOv5结合Deep SORT、MangoYOLO结合卡尔曼滤波与匈牙利匹配）显著提升了对遮挡与复杂冠层的鲁棒性，无监督聚类等轻量方法在无标注场景下有一定应用但扩展性有限。

产量预测整合时空与环境信息，是最具挑战性的任务之一。混合时序模型（如LSTM-1D CNN）在多时相卫星指数与温度数据上表现优异，经典机器学习（模糊规则系统、SVM）在数据稀缺时仍具竞争力，树基模型（随机森林、XGBoost）擅长捕捉非线性交互与空间异质性，线性模型适用于小数据集，多模态与集成学习（堆叠集成结合ConvLSTM与SVR）进一步提升预测精度。不同作物与任务的方法选择表明，任务复杂度与数据结构而非单纯模型创新驱动方法选型。

7. 系统级评估与部署考量

尽管前述章节分别梳理了各类任务的方法，但实际系统以集成管道运行。卷积神经网络及其变体仍是多数图像驱动任务的主导，轻量化变体适配实时与边缘部署，Transformer与混合架构逐步探索复杂空谱依赖建模。模型选择与感知模态紧密关联：RGB影像主导检测与分割，多光谱、高光谱与多模态数据更多用于预测与胁迫分析。

部署评估揭示显著缺口：现有研究极少报告模型参数量、文件大小、输入分辨率、FLOPs/MACs、推理延迟、FPS、内存占用、能耗等关键指标，系统级吞吐量、端到端延迟的报告更为罕见。为此，研究人员提出三级报告标准：最低层级报告模型足迹与推理速度；推荐层级补充内存占用、量化优化情况及实际吞吐量；理想层级纳入能耗指标与代码权重可复现性要求，以推动算法成果向运营系统转化。

8. 讨论、挑战与未来方向

8.1 分析流程综合

卷积架构与区域检测器主导分割、检测、计数等空间密集型任务，产量预测则呈现更高架构多样性，混合LSTM-CNN与集成策略频繁出现以捕捉时序动态与非线性交互。分割作为结构性桥梁，其可靠性直接影响下游任务，但现有模型多在有限环境变异下训练，跨季节与跨场景的鲁棒性存疑。注意力与Transformer架构正逐步渗透，有望建模冠层结构与病害传播的远程依赖，但需解决数据需求与计算成本问题。

8.2 稳健部署的结构性挑战

数据局限首当其冲：像素级标注资源密集且依赖专家知识，小样本与不平衡数据集加剧过拟合风险，模型在跨环境时泛化能力不足。碎片化多模态融合限制系统级一致性：现有策略多为特征级或后期融合，缺乏表征级统一架构以学习跨尺度共享抽象。部署约束是落地关键障碍：多数模型在高性能硬件上离线评估，而农业作业要求无人机、机器人或边缘设备上实时推理，高效架构设计、模型压缩与硬件感知优化仍远落后于精度改进。评估与可复现性不足：不一致的指标、实验协议与有限公共基准阻碍跨研究比较，缺乏对不确定性估计的报道限制了风险感知决策。

8.3 新兴研究方向

数据高效学习是核心优先方向，自监督、半监督与对比预训练可利用海量无标签影像降低标注依赖。域自适应与持续学习缓解协变量偏移，对抗特征对齐、元学习与传感器感知归一化有望提升跨区域泛化，持续学习适配农业环境的季节性演变。表征级多模态融合整合无人机、卫星、物联网与管理元数据，构建分层跨尺度建模能力。Transformer架构将在更大规模数据集支持下发挥更大作用，轻量化注意力机制是部署关键。边缘感知建模与压缩（剪枝、量化、知识蒸馏、神经架构搜索）已在杂草检测、病虫害识别等场景验证有效性，可在精度损失极小的前提下大幅降低计算负载。不确定性感知与决策中心评估需超越准确率，纳入投入减少、产量提升、虚警成本等操作结果指标，采用宏F₁、少数类召回率与PR-AUC等指标应对长尾分布。

8.4 实践与数据基础设施启示

推进AI驱动精准农业需算法、感知基础设施、数据治理与跨学科协作协同进步。标准化数据模式、共享基准与开放数据集是支撑可复现比较与跨区域研究的基础。增量式感知技术采纳配合稳健数据管理管道，可促进向农业工作流的可持续集成。未来研究可探索互补学习策略的统一框架：自监督预训练结合半监督微调解决标注瓶颈，域自适应技术提升跨条件鲁棒性，轻量化优化策略保障边缘部署，共同构建稳健可扩展的系统路径。

9. 结论

本综述通过统一分类体系梳理了百余项无人机赋能精准农业的机器学习研究，涵盖感知模态、数据类型、模型族系与分析任务。尽管深度学习在分割、检测、计数与预测中取得显著性能，但多数方法仍受限于小规模局地数据集与有限的跨季节、跨区域泛化能力，碎片化的多模态融合策略与无人机边缘平台的部署约束进一步阻碍了大规模运营采纳。自监督学习、域自适应、表征级多模态融合与轻量化架构设计为构建更稳健可部署的系统提供了可行路径。实际影响不仅取决于预测精度，还需融入不确定性感知、可解释性、计算效率与决策支持工作流。精准农业暴露了当前学习范式在非平稳环境、稀疏监督、多模态异质性与严苛部署约束下的结构性局限，解决这些挑战需要持续自适应、数据高效训练、多模态表征学习与模型压缩等方面的进展，使农业不仅是AI的应用场，更成为推动动态、资源受限与安全关键系统方法论创新的催化剂。未来研究应优先发展数据高效且泛化性强的模型，结合CNN与Transformer的优势，发展面向时序任务的RNN混合架构与面向多模态数据的CNN-Transformer混合模型，推进大规模多样化基准数据集与标准化评估协议建设，并深入探索多模态Transformer、半监督学习与边缘AI架构，以支撑可扩展部署的精准农业系统发展。