《Precision Agriculture》:Ground truth sampling methods affect accuracy of UAV-based vineyard yield estimation: a case study
编辑推荐:
目的:准确的地面真值数据对于训练可靠的遥感(Remote Sensing, RS)模型以进行葡萄园产量估测至关重要。然而,以往基于无人机(Unmanned Aerial Vehicle, UAV)的研究主要依赖单株采样,这可能会由于垂直枝条固定系统(Verti
目的:准确的地面真值数据对于训练可靠的遥感(Remote Sensing, RS)模型以进行葡萄园产量估测至关重要。然而,以往基于无人机(Unmanned Aerial Vehicle, UAV)的研究主要依赖单株采样,这可能会由于垂直枝条固定系统(Vertical Shoot Positioning, VSP)中的冠层重叠、株距和整形修剪配置而引入几何不一致性。本研究旨在评估地面真值采样方法的选择——基于单株(vine-based)与基于米段(meter-based)——如何影响基于无人机的产量模型的准确性和稳健性。方法:在一座采用VSP系统的商业葡萄园中,于两个物候期(BBCH 73 和 BBCH 85)获取了无人机多光谱影像。产量数据使用两种地面真值方法收集:一种是基于单株的方法,记录每株葡萄的鲜重;另一种是基于米段的方法,沿着连续的一米冠层区段测量产量。对无人机影像进行处理,以提取光谱(归一化差值植被指数,Normalized Difference Vegetation Index, NDVI)和几何(冠层覆盖度,Fraction Canopy Cover, Fc)变量。评估了三种估测框架:(i) 线性回归模型;(ii) 机器学习算法(包括高效线性模型、支持向量机、随机森林和高斯过程回归);以及 (iii) 贝叶斯推断模型。结果:在所有框架中,基于米段的采样方法均优于基于单株的方法。线性回归模型获得了更高的决定系数(R2=0.78)和更低的归一化均方根误差(normalized Root Mean Square Error, nRMSE)。机器学习算法在基于米段采样时实现了0.70至0.76之间的R2,而在基于单株采样时仅为0.15至0.27。基于米段采样数据训练的贝叶斯模型表现出最高的预测准确性,达到了0.84的R2,nRMSE为20.47%,平均绝对误差(mean absolute error, MAE)为17.46%。相比之下,基于单株数据训练的模型表现出显著较低的性能(R2 = 0.41, nRMSE = 50.08%)。在田间尺度上,基于米段的采样策略与贝叶斯推断相结合,提供了高保真度的产量估测,并降低了后验不确定性。结论:地面真值采样设计显著影响了基于无人机的葡萄园产量估测。对连续冠层区段进行采样,保持了空间连续性并缓解了几何偏差,增强了模型在不同分析框架下的可转移性和可靠性。这种方法为VSP葡萄园中可扩展的、基于遥感的产量建模提供了稳健的方法论基础。
葡萄是全球种植最广泛的果树作物之一,其产量和品质受环境条件、植株生理状态和管理措施的极大影响。近年来,技术进步为支持该领域引入了新工具,催生了精准葡萄栽培(Precision Viticulture, PV)的概念。PV基于对时空变异性的分析、解释和管理,旨在优化农艺效率,提升经济和环境可持续性。遥感技术的进步为不同尺度的葡萄藤监测提供了有价值的高效工具。在各种遥感平台中,卫星和无人机(UAV)目前被广泛使用,为植物生长和健康评估提供了明显优势。无人机能够以低运营成本快速获取超高分辨率数据,并在飞行计划和传感器集成方面具有极大灵活性。多光谱相机捕获跨光谱区域的反射特征,使得能够利用植被指数(Vegetation Indices, VI)提取生物物理信息。归一化差值植被指数(NDVI)作为评估多种作物(包括葡萄园)长势和健康状况的指标被广泛使用。基于无人机的多光谱影像进一步增强了对葡萄园冠层的监测能力,能够精确地将葡萄藤植被与背景(即杂草、土壤和冠层阴影)区分开来。这些任务越来越多地由机器学习(Machine Learning, ML)和深度学习算法用于图像分类和分割来支持。冠层检测允许提取光谱和几何特征。几何特征包括冠层面积(CA)、厚度、冠层体积和覆盖度(Fc)。后者代表了冠层面积与每株可用空间的比率,在葡萄园管理中日益受到重视。它越来越多地用于支持农艺决策、指导灌溉策略,并作为作物模拟模型的关键输入。准确估测葡萄园产量是高效采收规划、后勤组织和葡萄品质预测的关键要求。然而,由于葡萄藤冠层强烈的时空变异性以及实地数据收集相关的实际限制,产量估测仍然是一个具有挑战性的过程。这些限制了可在葡萄园内监测的采样点数量。传统上,产量是通过人工测量果穗数、每穗浆果数和平均浆果重量来确定的,结果通常以每株或单位面积表示。然而,这些测量容易出现计数错误,特别是在冠层茂密的情况下,并且受到显著的株内和株间变异性的影响。从统计角度来看,最优的采样方案应能代表葡萄园群体中的空间分布和变异性。由于冠层结构和生理过程在空间和时间上发生变化,采样策略的设计必须捕捉这种内在的异质性。多年来,葡萄园采样方法已从随机方法发展到考虑田间内变异性的空间信息方法。诸如随机完全区组设计(Randomized Complete Block Design, RCBD)和空间平衡完全区组设计(Spatially Balanced Complete Block, SBCB)等设计已被开发出来,以确保采样点分布更均匀,并减少潜在空间梯度的影响。空间平衡的概念此后被扩展到整合遥感数据,包括植被指数和冠层结构指标。这种整合被证明能有效优化样本量,最多可减少69%,并在实地调查中最多减少90%的行程距离,同时不牺牲准确性。最近,利用由产量变异性或植被指数定义的管理区已成为精准葡萄栽培中一种高效且统计上稳健的方法。与采样设计的这些进展并行,大量研究探讨了使用基于无人机的遥感进行葡萄园产量估测。Ballesteros等人通过结合植被指数和冠层覆盖度指标,在双臂篱架系统中实现了高预测精度。Di Gennaro等人通过在RGB影像上自动检测果穗,获得了超过84%的产量预测精度,而Leolini等人和Lopez-Garcia等人报道的均方根误差(RMSE)在0.21至0.39 kg·vine?1之间,适用于不同的整形修剪系统。尽管这些研究证实了无人机影像准确估测产量的潜力,但它们对基于单株的地面真值数据的依赖限制了模型在不同葡萄园架构间的泛化能力。将产量表示为每米冠层(kg·m?1)而非每株,提供了一种与几何无关且空间一致的参考,特别适用于冠层形成连续墙体的情况。这一指标与无人机影像的空间分辨率更有效地对齐,其中每个像素代表连续植被的一部分,并最大限度地减少了株距、整形修剪系统和冠层几何形状的影响。在以往的研究中,地面真值数据集通常源自单株测量,这种方法在VSP系统中可能会由于冠层结构(由相邻葡萄藤之间的相互作用和重叠组成)与其在正射影像上的二维投影之间的不匹配而引入几何不一致性。当单株作为离散采样单元时,这种错位的程度会随着冠层密度、长势和整形系统的变化而变化,但一定程度的空间不准确性是不可避免的。相反,基于冠层区段的采样减轻了这些扭曲,为开发可扩展和可泛化的基于无人机的产量模型提供了更协调的框架。在此背景下,研究人员的假设是,将地面真值采样策略从基于单株改为基于米段,会显著影响遥感派生变量与产量之间函数关系的准确性。因此,本研究的目的是比较两种用于VSP葡萄园产量数据收集的地面采样方法,并评估它们在不同框架下的预测性能。研究人员调查了三种分析框架,包括传统的线性相关模型、机器学习算法(包括高效线性模型、支持向量机、随机森林和高斯过程回归)以及贝叶斯推断框架。研究在2025年生长季于西西里岛阿尔卡莫受保护原产地名称(PDO)内的一个试验点进行,地形为缓坡。试验园于2007年种植了Catarratto品种葡萄,嫁接于1103 Paulsen砧木,采用VSP整形和双臂短梢修剪,行间距2.20米,株距1.00米。为了捕捉试验田内的空间变异性并选择采样位置,研究人员进行了综合的多源空间分析,结合了Sentinel-2卫星的NDVI时间序列和多年的无人机多光谱调查数据,将田地划分为低、中、高长势区。在每个长势区内,设置了空间相邻的采样区组,并设计了两种并行的空间参考系统:一种与单株在地面的投影对齐(基于单株采样单元),另一种沿行向与一米间隔对齐(基于米段采样单元)。研究人员系统地收集了每个划定区段的产量属性,包括总鲜重(即产量,以kg·m?1或kg·vine?1表示)和果穗数。无人机数据采集使用了搭载多光谱相机的DJI Mavic 3无人机,在两个关键物候期(BBCH 73和BBCH 85)进行,飞行高度70米,空间分辨率3.1厘米/像素。影像处理包括辐射校正、使用深度学习(基于U-Net和ResNet-101)进行冠层语义分割,以提取每个1米区段的冠层覆盖度(Fc)和NDVI(包括冠层NDVI和混合NDVI)。数据分析首先进行了成对线性回归,探索产量参数与无人机派生变量(NDVI、Fc及其交互项)之间的关系。随后,使用相同的预测变量(NDVI、冠层NDVI、Fc、Fc*NDVI、Fc*冠层NDVI)实施了四种机器学习算法(高效线性模型、支持向量机、随机森林、高斯过程回归),分别对基于米段和基于单株的产量进行建模。最后,引入了第三个建模框架——贝叶斯推断建模,使用brms包在R环境中进行,模型公式包含了Fc、NDVI和冠层NDVI及其所有交互项。通过留一法交叉验证和贝叶斯R2选择最佳模型,并生成产量图,与田间实测总产量进行对比验证。研究结果表明,在所有分析框架中,基于米段采样数据的模型性能均显著优于基于单株采样数据的模型。线性回归分析显示,基于米段的采样中,Fc和NDVI及其交互项(Fc × NDVI)与产量之间存在更强的正相关关系,特别是在BBCH 73期,Fc × NDVI的决定系数(R2)达到0.78。机器学习模型在基于米段采样时,在所有算法上都表现出更高的R2(0.70-0.76)和更低的误差,而基于单株采样时R2仅为0.15-0.27。贝叶斯建模结果最为突出,基于米段采样和BBCH 73期遥感数据训练的模型实现了最高的预测准确性(R2=0.84,nRMSE=20.47%),而后验不确定性显著降低;相反,基于单株数据的模型性能较差(R2=0.41,nRMSE=50.08%)。在田间尺度验证中,基于米段采样的方法对总产量的估测误差仅为5.41%,而基于单株的方法误差为17.6%。讨论部分指出,地面真值单元的定义显著制约了VSP葡萄园中基于遥感的产量建模的准确性。基于米段的采样保留了冠层墙体的几何连续性,更好地与无人机的地面投影对齐,减少了边缘重叠和系统性错位的影响。约25%记录的产量与基于单株的区段不对齐,这量化了基于单株采样固有的不匹配问题。研究表明,光谱/几何预测变量与产量之间的关系对葡萄藤架构特征(如株高、干高、行距、冠层厚度、修剪方式)是敏感的,而基于米段的采样在减少采样偏差和提高泛化能力方面表现出了一致的优势。研究结论认为,在VSP葡萄园中,地面真值方法的选择是基于遥感的产量建模准确性的首要驱动因素。通过划定连续的米段而非单个葡萄藤进行地面采样,能够系统性地提高所测试模型的性能,获得更高的R2值。基于米段的采样保留了VSP系统冠层墙体的几何连续性,而基于单株的单元则引入了错位和几何偏差。将参考单位重新定义为连续的冠层区段,提供了一种能够系统提高基于无人机的产量模型准确性和稳健性的采样框架,并促进了其在精准葡萄栽培领域的应用。