从无人机到卫星：利用机器学习和Sentinel-2卫星估算苜蓿的植被覆盖度

《European Journal of Agronomy》：From drone to satellite: Alfalfa fractional cover estimation with machine learning and sentinel-2

【字体：大中小】 时间：2026年04月16日 来源：European Journal of Agronomy 5.5

编辑推荐：

　　哈兹希尔·巴赫拉米（Hazhir Bahrami）、卡雷姆·乔克曼尼（Karem Chokmani）、萨埃德·霍马约尼（Saeid Homayouni）、维亚切斯拉夫·I·亚当丘克（Viacheslav I. Adamchuk）、拉米·阿尔巴沙（Rami Albasha）、马克西

　　哈兹希尔·巴赫拉米（Hazhir Bahrami）、卡雷姆·乔克曼尼（Karem Chokmani）、萨埃德·霍马约尼（Saeid Homayouni）、维亚切斯拉夫·I·亚当丘克（Viacheslav I. Adamchuk）、拉米·阿尔巴沙（Rami Albasha）、马克西姆·勒杜克（Maxime Leduc）、凯瑟琳·香槟（Catherine Champagne）

加拿大魁北克国家科学研究院 Centre Eau Terre Environnement

**摘要**
紫花苜蓿是一种广泛种植的多年生牧草作物，具有高产量和优良的品质。准确及时的监测紫花苜蓿的生长情况有助于优化种植管理措施，从而最大化产量。本研究提出了一种利用Sentinel-2多光谱卫星图像和机器学习（ML）算法估算紫花苜蓿植被覆盖率（FVC）的框架。为了建立精确的参考数据，研究人员使用无人飞行器（UAV）图像，并结合无监督k最近邻（kNN）和监督随机森林（RF）算法生成了紫花苜蓿地图。UAV图像被分类为三类：（1）紫花苜蓿、（2）草、（3）死亡植被。随后，训练了两种ML回归模型（RF和极端梯度提升XGB）来估算紫花苜蓿的FVC。研究结果表明，这两种模型均能有效利用Sentinel-2数据估算FVC，测试数据的R2值为0.95，平均绝对误差（MAE）约为3.7%。其中，RF模型在估算接近零的FVC值时表现略优于XGB模型。此外，归一化差异植被指数（NDVI）和土壤校正植被指数（SAVI）是RF和XGB模型中最重要的特征之一。训练完成后，RF模型被用于绘制第一个生长周期内的紫花苜蓿FVC分布图，结果与RGB图像可视化结果完全一致。农民和决策者可以利用这些FVC地图来管理紫花苜蓿田地，提早识别死亡或受损的植物区域，并根据需要制定合理的轮作计划。

**1. 引言**
气候变化会通过改变温度和降水量等物理条件直接影响农业生产系统，或者通过影响害虫、疾病传播媒介和入侵物种等生物来间接影响作物产量（Gitz等人，2016年）。根据短期气候变化模型（至2050年），由于气温升高、二氧化碳增加、降水频率和强度变化以及天气系统变动，田间作物预计将面临压力（Hart等人，2022年）。由于其高干物质产量和营养价值，紫花苜蓿（Medicago sativa L.）是全球最重要的牧草作物之一（Suttie，2000年）。该作物在80多个国家种植，覆盖面积达约3500万公顷（Kayad等人，2016年）。在加拿大东部，44%的多年生牧草田为紫花苜蓿或紫花苜蓿与草的混合种植（加拿大统计局，2021年）。由于北部地区生长季节较短，农民必须在春季尽早监测紫花苜蓿的生长情况，以确定管理方案并避免错过关键的管理时机。

植被覆盖率（FVC）是指植被垂直投影覆盖的地表面积比例。它是评估作物生长状况的重要指标，常用于了解土壤侵蚀、作物光合作用和水分利用效率（Lucero等人，2024年；Yan等人，2021年）。这一指标对于表征植被状态至关重要，常用于评估气候变化和环境因素导致的植被变化（Tu等人，2019年）。传统上，包括生物量、FVC和叶面积指数在内的农业参数评估依赖于人工检查技术，这些方法劳动强度大、耗时长，难以实现时空动态监测（Bahrami等人，2025a；Noland等人，2018年；Wang等人，2022年）。随着遥感和图像处理技术的进步，它们已成为大规模FVC监测的主要手段（Chen等人，2024年）。卫星遥感因具有广泛的时间序列、广泛的空间覆盖范围和多维（空间和光谱）优势而被广泛应用（Bahrami等人，2022年；Yu等人，2021年）。基于卫星光学数据的植被指数在分析植被变化方面显示出巨大潜力，尤其是Landsat和Sentinel-2多光谱卫星，因其易于获取且具有足够的光谱和空间分辨率（Chen等人，2024年；Lin等人，2021年；Maurya等人，2021年）。Sentinel-2在绘制紫花苜蓿FVC地图方面具有显著优势，其空间分辨率为10米，重访周期为5天，并具备红边光谱带。由于实地观测和卫星数据在尺度上的差异，使用卫星数据建模FVC时难以获取可靠的参考数据，因此需要新的方法来弥补这一差距。

文献中建议使用UAV数据作为替代方案来获取参考数据（Chen等人，2024年；Gr?nzig等人，2021年；Lin等人，2021年；Riihim?ki等人，2019年）。尽管UAV图像的光谱分辨率通常较低，但其较高的空间分辨率使其成为获取更多信息的强大工具（Ad?o等人，2017年）。Kattenborn等人（2019年）还证明，基于UAV的参考数据有潜力替代或增强传统的野外采样方法。不同遥感平台数据的一致性对高效数据融合至关重要（Hu等人，2026年）。此外，确保UAV数据的精确地理配准对于将UAV图像与卫星图像坐标对齐也非常重要（Vélez等人，2024年）。已有许多研究利用卫星数据估算多种作物的FVC，同时也使用UAV收集参考数据。例如，Riihim?ki等人（2019年）结合Sentinel-2、Landsat OLI和Planet CubeSat数据估算北极植被的FVC，Yang等人（2023年）利用Sentinel-2数据和UAV图像估算冬小麦的FVC。然而，目前尚无类似的研究针对紫花苜蓿开展。此外，特别是在气候条件差异较大的地区，结合多年UAV与卫星图像进行的大规模FVC测绘在文献中还较为有限。

已经提出了多种FVC估算方法，包括基于物理的模型（Jacquemoud等人，1995年；Jia等人，2016年）、经验模型和半经验模型（Jia等人，2017年；Riihim?ki等人，2019年）、线性解混模型（Wu等人，2021年）以及机器学习（ML）模型（Lucero等人，2024年；Yu等人，2021年）。基于物理的模型能够模拟植被反射率并估算FVC，但反演冠层辐射传输模型以进行FVC估算存在挑战（Maurya等人，2021年）。尽管经验模型在计算效率上优于基于物理的模型，但它们需要大量地面观测数据进行参数校准，成本较高且不适用于广泛应用（Jia等人，2016年；Yang等人，2016年）。像素解混模型通常通过将混合像素中的表面特征分类为植被和非植被类别来计算FVC（Lin等人，2021年），但准确确定端元通常是解混方法中最具挑战性的部分（Yu等人，2021年）。在多种FVC估算方法和模型中，机器学习（ML）的表现最为出色，因为这些算法在数据量有限的情况下也能高效快速地获得较好结果（Elshewey等人，2024年；Maurya等人，2021年）。ML模型在处理复杂非线性数据分布方面展现出巨大潜力（Wu等人，2021年）。多种ML模型已被用于估算不同作物和植被类型的FVC（Maurya等人，2021年；Yang等人，2023年）。例如，Niu等人（2021年）评估了RF、人工神经网络和多元线性回归在利用UAV多光谱图像估算玉米FVC方面的潜力；Liu等人（2021年）利用Random Forest（RF）结合FengYun-3系列卫星数据估算多种植被类型的FVC；Shiferaw等人（2019年）研究了几种ML算法（如RF、支持向量回归SVR和深度神经网络）在不同地理空间数据集（包括MODIS和Landsat 8）下估算入侵外来植物物种FVC的潜力。

据我们查阅的文献可知，目前仅有一项研究使用Sentinel-2数据估算紫花苜蓿的FVC（Echeverría等人，2021年）。他们选取了172个地点的1平方米样本来校准和验证模型。然而，实地采样耗时且成本高昂，且 Sentinel-2的10米像素分辨率与实际采样面积之间存在较大差距，妨碍了地面观测数据与卫星数据的有效整合（Riihim?ki等人，2019年）。Echeverría等人（2021年）的地面测量分别在2017年和2018年的三个日期进行，但这些方法的普遍适用性有限。因此，需要更多可靠的地面真实数据来训练大规模FVC估算模型。

本研究旨在利用UAV减少实地调查的耗时性和复杂性，同时解决地面测量数据与卫星图像像素之间的尺度差异，通过多时相和多年Sentinel-2数据实现紫花苜蓿FVC的大规模可靠估算。具体目标包括：（1）构建一个稳健且可泛化的模型来估算紫花苜蓿FVC；（2）训练并比较两种基于ML的FVC估算模型在利用Sentinel-2数据衍生光谱特征和植被指数方面的性能；（3）在大空间尺度上预测和绘制FVC分布图。

**2. 材料与方法**
**2.1 研究区域**
在2021年至2023年期间，研究人员在加拿大曼尼托巴省、安大略省、魁北克省和新斯科舍省的503至597块紫花苜蓿田中收集了UAV数据（图1、表1）。

**2.2 数据收集与预处理**
**2.2.1 UAV数据采集与预处理**
UAV数据由DJI Mavic 2 Pro无人机获取，每架无人机配备2000万像素（5472×3648）RGB相机、2.5厘米（2.5毫米）CMOS传感器、28毫米（等效35毫米）焦距镜头和77°视场角。飞行路线规划采用DJI GS Pro软件完成，方向和重叠率为60%以确保获取正射影像，飞行高度根据当地地形设定为120米。正射影像采用Maps Made Easy（https://www.mapsmadeeasy.com/）在线平台生成，空间分辨率为约2.8厘米。DJI Mavic 2 Pro配备内置GPS，通过二阶多项式变换模型进行地理配准以修正系统误差，确保图像位置准确。

**2.2.2 卫星图像采集与预处理**
针对大规模紫花苜蓿FVC测绘，本研究利用了Sentinel-2多光谱仪器（MSI）任务的图像，该任务由两颗卫星Sentinel-2A和Sentinel-2B组成，双星的重访周期为5天。本研究使用的是已经完成大气校正的Sentinel-2 Level-2A数据。为与地面真实数据对齐，选取了UAV数据采集前后三天内的Sentinel-2A/B图像。Sentinel-2A/B表面反射率数据通过Google Earth Engine（GEE）平台获取，数据集中包含云覆盖率低于15%的Sentinel-2图像。最后，所有图像均经过云层和云影遮盖处理。QA60位掩码和场景分类层（SCL）波段保留了云层信息，用于遮挡被云层覆盖或处于阴影中的像素。随后使用预处理后的卫星图像进行了植被指数（VI）计算。表2详细列出了本研究中使用的植被指数。

表2. 本研究中使用的植被指数详细信息。

| 植被指数 | 公式（使用Sentinel-2波段） | 参考文献 | 缩写 |
|-------------------------|----------------|-----------------------------|-------------------------|
| 归一化绿红植被指数 | B3?B4 | Gitelson等人（2002） | NGRV |
| 可见大气阻力指数 | B3?B4 | Gitelson等人（2003） | VARI |
| 可见波段差异植被指数 | 2B3?B2?B4 | Wang等人（2015） | VDI |
| 绿红比率指数 | B3/B4 | Gamon和Surfus（1999） | GRRI |
| 归一化差异植被指数 | B8?B4 | Rouse等人（1973） | NDI |
| 归一化差异水分指数 | B3?B8 | McFeeters（1996） | NDI |
| 归一化差异红边指数 | B8A?B5 | Gitelson和Merzlyak（1994） | NDRE |
| 土壤调整植被指数 | (1.5(B8?B4) | Huete（1988） | SAVI |
| 修改后的土壤调整植被指数 | 2B8+1?2(B8?B4) | Qi等人（1994） | MSAVI |
| 增强植被指数 | 2.5(B8?B4) | Huete等人（1997） | EVI |
| 叶绿素植被指数 | B8*B4 | Vincini和Frazzi（2011） | CVI |
| 简单比率 | B8/B4 | Jordan（1969） | SRO |
| 优化土壤调整植被指数 | B8?B4 | Qi等人（1994） | OSAVI |
| 改进叶绿素吸收反射指数 | B5?B4?0.2*B5?B3 | Daughtry等人（2000） | MCARI |
| 反转红边叶绿素指数 | B7?B4 | Frampton等人（2013） | IREC |
| 转换NDVI | NVI+0.5 | Senseman等人（1996） | TNDVI |

2.3. 方法论
图2展示了本研究的一般工作流程。首先，使用无人机（UAV）图像生成参考分类图，利用kNN算法和随机森林（RF）分类模型将像素分为三大类：苜蓿、草地和死亡的植被。然后对分类图进行编辑，并将其转换为10米网格单元，这些网格单元与Sentinel-2的像素范围完全匹配。正射影像经过多步校正，以确保训练模型的数据可靠性。数据集是通过从GEE中的卫星图像提取光谱和VI特征，并将其与从UAV图像计算出的实际FVC数据相匹配而生成的。该数据集随后用于训练机器学习（ML）回归模型，其性能通过三个指标进行评估，包括均方根误差（RMSE）、平均绝对误差（MAE）和决定系数（R2）。最后，使用最准确的ML回归模型绘制出苜蓿田的FVC图。本研究开发的全部代码完全使用Python v. 3.10.14、scikit-learn v.0.25.2和earth engine-api 0.1.401库实现。

2.3.1 使用无人机正射照片建立参考数据
为了准备可靠的基于UAV的参考地图，图像经历了多步处理。这一步骤使用基于kNN标签训练的RF分类器，生成了高质量的三类UAV参考地图（苜蓿、草地和死亡的苜蓿）。这些精炼的UAV地图作为后续在Sentinel-2像素尺度上进行FVC估算的真实值输入。
k最近邻（kNN）算法最初被引入作为一种非参数分类方法（Fix，1985）。kNN算法是一种基于实例的学习技术，它通过引用特征空间中最近的k个训练样本来对组件进行分类，而不依赖于预定义的训练样本（Pacheco等人，2021）。
从UAV正射照片中选择了十个大的子区域，并使用K-Means和kNN将它们分为三类：（1）苜蓿，（2）草地和（3）死亡的苜蓿。草地类别包括黄色花朵像素和可能由于疾病或营养缺乏而受损的苜蓿。死亡类别包括整块田地中的死亡苜蓿和裸露的土壤。选择了十个尽可能具有代表性的子区域，涵盖了观察到的所有苜蓿状态，包括死亡植被、深绿色和浅绿色冠层。总共，这十个子区域包含大约600万个像素。由无监督的K-Means和kNN算法生成的分类图随后经过编辑，并输入RF分类器。选择RF分类器而不是kNN进行图像分类映射的原因是基于这样的假设：监督算法（如RF）的有效性优于无监督方法（Cosenza等人，2021；Thanh Noi和Kappas，2017）。
作为一个强大的集成学习算法，RF广泛用于解决分类和回归问题（Akhavan等人，2021）。集成学习是通过生成多个模型并结合它们的结果来解决特定问题的过程。RF方法是一种实用的包装技术，它依赖于许多独立的决策树。通过集成平均，模型通过整合每棵树的预测来提高其整体准确性（Sheykhmousa等人，2020）。
在RF分类器中，75%的像素被随机选为训练样本，而25%被留作测试。评估RF分类模型的综合标准包括：
（1）召回率 = TTP + FN
（2）精确度 = TTP + FP
（3）F1分数 = 2 * 精确度 * 召回率 = 2 * TP / (TP + FP + FN)
其中TP是真正例，TN是真负例，FN是假负例，FP是假正例。
一旦使用RF分类器生成并手动校正了参考UAV分类图，它们就被用来在Sentinel-2尺度上得出定量冠层指标（图3）。特别是，这三类UAV地图成为了在Sentinel-2大小的网格单元内计算苜蓿FVC的基础，然后用于构建和评估下一节中描述的基于卫星的模型。

2.3.2 卫星建模的FVC数据准备
基于UAV的分类图被转换为与Sentinel-2对齐的FVC样本，并与无云的Sentinel-2反射率和VI数据配对。这些匹配的UAV-卫星数据集构成了训练和验证基于卫星的FVC建模方法的基础。
在这一步中，生成了与卫星Sentinel-2像素完全对齐的网格单元，消除了那些部分或完全位于田界内的网格。FVC是通过从UAV分类结果中得出的苜蓿分类像素数量与每个网格单元内总像素数量的比例来计算的。然后根据以下公式将FVC值转换为百分比：
FVC = （苜蓿像素数量）/ 总像素数量 × 100
所有覆盖UAV图像的Sentinel-2像素都被转换为其中心的点，随后提取了每个单元的10米和20米Sentinel-2波段的表面反射率值和VI值（表2），以及FVC的聚合值（图3）。从Sentinel-2获取的值和计算出的VI值与从UAV图像得出的FVC聚合值相结合。
由于本研究的重点是提前向农民提供他们田地的情况，我们只选择了在年度第一个生长周期内获取的UAV图像。考虑到上述条件，我们在三年的时间里收集了158张不同田地的UAV图像，涵盖了第一个生长周期。
由于两张连续图像之间的苜蓿FVC有显著增加，我们只考虑了那些在UAV图像拍摄日期前三天内和之后三天内有相应Sentinel-2图像的UAV图像。此外，所有在研究田地上有大量云层或云影的卫星图像都被排除在外。共有76张卫星图像及其对应的UAV地图。为了训练和测试ML算法，选择了65张图像，以确保UAV分类图的准确性，而另外11张图像用于验证分析。
使用这65张图像进行训练和测试，共收集了42,744个样本（或像素）。Python的CleanLab模块被用来消除数据中的潜在不准确性（Zhou等人，2023）。该工具自动识别ML数据集中的问题，从而便于数据清洗和标签校正（Lin等人，2025）。在本研究中，所有质量低于5%的样本都被删除。使用CleanLab后，剩下39,145个样本。在剩余的样本中，75%（29,359个样本）被用于训练，而剩余的25%（9,786个样本）被留作测试。
本研究使用了两种ML模型，RF和XGB，来确定实际FVC与从Sentinel-2图像中提取的预测参数（光谱波段和VI）之间的关系。RF的详细解释见2.3.1节。XGB（Brownlee，2016）是一种集成学习技术，它通过反复训练弱基础学习器（通常是决策树）并结合它们的输出来构建一个强大的预测模型。XGBoost使用梯度提升来训练预测模型。该算法通过在每次迭代中计算损失函数的梯度来调整模型的预测（Duan等人，2025）。为了减少总损失并提高模型性能，随后使用这个梯度训练一个新的决策树来纠正残差误差（Duan等人，2025）。
Scikit-learn中的GridSearchCross-Validation（GridSearchCV）被用来优化每个机器学习算法的参数（Pedregosa等人，2011）。本研究采用了5折交叉验证。随机选择了五个数量相等或几乎相等的数据子集（样本数量相等）。模型在每次迭代中在四个子集上进行训练，剩余的子集用于验证。为了确保每个子集至少被用作一次验证集，这个过程进行了五次。需要注意的是，只有训练数据经过了交叉验证。
RF和XGB的参数和网格值详细信息见表3。对于RF模型，GridSearch中估计器的数量被确定为200；对于XGB模型，学习率为0.2，估计器的数量为200。

3. 结果
3.1 使用无人机正射照片的苜蓿分割图
本节介绍了基于选定子区域的UAV图像训练的RF分类器的结果。表4显示了RF分类器模型在测试数据上的评估标准结果。死亡苜蓿类别（包括死亡/受损的苜蓿和裸露的土壤）的精度值高于草地和苜蓿类别（分别为0.89、0.73和0.83）。苜蓿和死亡类别的F1分数相同，为0.85，高于草地类别的0.74。最后，苜蓿类别的召回率最高（0.86），其次是死亡类别（0.81），然后是草地类别（0.74）。
表4. RF分类器在测试数据上的精度、召回率和F1分数指标。

然后使用RF分类器模型对所有可用的UAV图像进行了分类（部分示例见图4）。接着，在RF分类器的预测存在误分类像素的情况下手动编辑了地图，这些错误可能是由于遗漏和/或错误造成的。例如，图4显示了RF分类器错误分类了靠近田界树木的阴影。最终掩膜经过了这些调整。此外，对于我们不确定像素或区域类别的部分田地，在使用卫星数据进行FVC建模时被删除了。
图4. 一些UAV RGB图像（第一行）及其对应的RF分类器模型植被地图（第二行）的示例。
然后根据与Sentinel-2像素精确对齐的10米网格单元中的苜蓿百分比，从校正后的UAV地图计算了苜蓿FVC。**利用卫星数据估算FVC**

在将无人机获取的FVC数据上采样以达到Sentinel-2的空间分辨率后，随机选取了25%的数据用于测试。训练数据和测试数据的直方图如图5所示。可以看出，训练集和测试集中的数据分布似乎是均匀的。在85-100%的范围内，训练数据和测试数据中都观察到了较高的分布密度。

**图5. 训练数据分布（a）和测试数据分布（b）的直方图。**

数据分割后，训练数据被用来训练两种机器学习回归模型：RF和XGB。RF和XGB在测试数据上的性能指标几乎相同（图6）。两种模型的RMSE值非常接近，RF为6.4%，XGB为6.26%。两种算法的MAE也几乎相同，RF略优于XGB，MAE为3.69%，XGB为3.78%。两种模型的R2值均为0.95。由于测试数据中可能包含异常值，XGB在某些预测中出现了负值。尽管如此，RF的表现更好，因为其预测结果中没有低于0的值。此外，Zero苜蓿的FVC值存在一些高估现象，在这种情况RF的表现也优于XGB，因为RF在接近零的值上的高估较少。

**图6. 使用RF（左侧）和XGB（右侧）在Sentinel-2数据测试集中，实际FVC数据（来自上采样的无人机图像）与估算FVC之间的散点图。**

**图7. 显示了RF和XGB的综合特征重要性工具结果。在RF的特征重要性中，TNDVI、NDVI和OSAVI的排名最高；而在XGB的特征重要性中，NDVI、SAVI和SR的排名最高。在RF的特征重要性分析中，所有特征都对模型有所贡献，因为没有一个特征的重要性值为零。相反，在XGB模型中，许多特征对模型的贡献可以忽略不计或为零。**

**图7. 使用RF（a）和XGB（b）的特征重要性。植被指数（特征）详见表2.3.3。**

**FVC验证**

由于训练好的RF模型在估算接近零的FVC值方面表现更好，并且MAE值较低，因此选择它来预测用于验证的卫星图像。图8展示了三个示例的RF回归算法结果。这些示例用于展示模型在多年和不同植被覆盖范围内的性能。模型在其余验证图像上的表现详见补充材料部分（图S1和S2）。

**图8. 验证数据中的无人机RGB图像示例（a、d和g），以及时间上最接近的Sentinel-2 RGB图像（b、e和h），以及使用训练好的RF回归模型对苜蓿FVC的预测（c、f和i）。**图8-a和b显示了田间不同FVC值的图像。图8-c中RF模型的预测表明，该模型能够通过FVC预测有效识别苜蓿，并且还能区分深色（湿润）土壤和苜蓿，这是一个显著特征。图8-d和e展示了苜蓿植被稀疏且密度低的区域。图8-f中FVC的低预测值表明了该模型在区分低密度和高密度植被方面的有效性。第三张图像代表了一个苜蓿密度高的田地。模型也有效地估算出了田地大部分区域的高FVC值。模型的一个显著特点是它能够区分草（黄色花朵）和苜蓿，如图8-i所示。图8-g和i的特写视图（图9-a和b）展示了模型如何成功区分高密度苜蓿和混合苜蓿-草。

**图9. 图8-g（a）的特写视图和模型的预测（b），显示了模型在验证数据中区分草（黄色花朵）和苜蓿的表现。**

**3.4. 使用卫星数据进行的多时相苜蓿FVC绘图**

训练好的RF模型被用来绘制多个苜蓿农场在整个生长季节内的苜蓿FVC分布图。图10展示了位于安大略省南部的一个田地。第一个生长周期的预测显示了苜蓿的生长及其FVC的发展情况，结果与Sentinel-2的RGB图像完全吻合。

**图10. 2022年第一个生长周期期间，安大略省一个研究田地的Sentinel-2 RGB图像（a-d）与RF模型生成的相应苜蓿FVC地图（e-h）的视觉对比。**

**图11. 展示了曼尼托巴省的另一个田地。由于曼尼托巴的气候比安大略省南部更凉爽，这个田地的生长开始时间比图10中的田地晚。**

**图11. 2022年第一个生长周期期间，曼尼托巴省一个研究田地的Sentinel-2 RGB图像（a-d）与RF模型生成的相应苜蓿FVC地图（e-h）的视觉对比。**

**图12. 同样展示了魁北克省的另一个田地。这个第三个田地的气候与曼尼托巴省几乎相同，因此生长特征相似。估算的苜蓿FVC地图与RGB图像一致。然而，图12-a和e表明，由于模型没有经过雪像素的训练，将雪覆盖的像素误估为高FVC。不过，我们的分析显示，使用从Sentinel-2图像中提取的归一化差异雪指数（NDSI），可以在预测前屏蔽这些雪像素。图13展示了NDSI指数中值高于0.4的雪像素。**

**图12. 2022年第一个生长周期期间，魁北克省一个研究田地的Sentinel-2 RGB图像（a-d）与RF模型生成的相应苜蓿FVC地图（e-h）的视觉对比。**

**4. 讨论**

本文提出了一种利用Sentinel-2多光谱图像和机器学习算法估算苜蓿FVC的全面而高效的方法。本研究采用了两种机器学习回归方法，估算了加拿大四个省份（魁北克、安大略、曼尼托巴和新斯科舍）三年间第一个生长周期的苜蓿FVC。通过收集来自503到597个苜蓿田地的无人机数据，这些数据涵盖了不同的年份和气候条件，从而创建了一个独特且丰富的数据集。无人机图像经过多阶段校正以提高训练模型的可靠性。从无人机数据中得到的校正后的FVC地图被上采样后用于训练机器学习模型。最终，利用Sentinel-2数据生成了各省份苜蓿田地的FVC地图，确保模型在不同地区和气象条件下的表现稳定。本研究提出的框架生成的FVC地图可用于早期春季识别苜蓿的死亡情况。本研究的重要贡献在于使用了GEE API在Python中开发了该流程，使得在图像可用时能够立即生成FVC地图，从而为农民提供近乎实时的数据，帮助他们确定管理方案。

对用于估算苜蓿FVC的机器学习回归算法的性能评估表明，RF和XGB的评价指标几乎相同，利用Sentinel-2卫星数据的测试数据R2值为0.95。机器学习模型的结果表明，它们不仅能够模拟FVC与多维数据之间的复杂非线性关系，还能进行自适应调整，从而提高预测准确性和泛化能力（Singha等人，2024年）。RF和XGB在估算作物FVC方面的有效性与文献中的结果一致，RF的表现优于XGB（Bahrami等人，2025b；Chen等人，2024；Khechba等人，2025；Lin等人，2021；Sarkar等人，2025）。这些研究表明，RF的更好性能与其强大的能力有关，即能够模拟输入特征与目标变量之间的复杂非线性关系，并处理大规模数据集（Sarkar等人，2025）。与其他可能侧重于特定特征或数据子集的模型不同，我们的研究观察到XGB主要关注三个特征。然而，RF利用自助法和来自不同决策树的预测聚合提供了一种更平衡的方法，涉及数据的多个方面，从而提高了准确性（Sarkar等人，2025）。此外，尽管RF在估算接近零的FVC值时表现更好，但XGB对接近零的样本却有误估。

从无人机图像中准确提取植被数据对于计算FVC和开发模型至关重要（Chen等人，2024）。在我们的研究中，使用超过10个子区域训练了一个RF分类器，并用该模型预测所有无人机图像。尽管RF分类模型在测试数据上的准确率相对较高，但未来也可以训练和测试其他深度学习模型。使用深度模型而非浅层模型可能会提高分类准确性（DeLancey等人，2019）。这还将减少手动编辑苜蓿分类图所需的时间，这是一个非常耗时的任务。

本研究利用无人机图像，并将其与10米像素的Sentinel-2卫星图像匹配。多项研究已经使用无人机图像作为地面样本和卫星图像之间的桥梁（Chen等人，2024；Maurya等人，2021；Yang等人，2023）。这种方法可以从具有不同天气和地形条件的多个地点获取大量的地面采样数据，而无需使用任何破坏性的现场采样技术。然而，据我们所知，只有的一项研究尝试使用卫星图像估算苜蓿FVC（Echeverría等人，2021）。但在那项研究中，他们采用了现场地面采样来测量苜蓿FVC。尽管地面调查方法可以提供更准确的地面测量数据，但将其与卫星遥感图像的像素尺度对齐会带来挑战（Zhong等人，2023）。Echeverría等人（2021）在整个研究中进行了172次地面测量，他们分析中报告的最高R2值为0.727，低于我们研究的R2值。

先前的研究使用特征重要性分析来确定哪些特征对模型估算或分类目标参数的能力影响最大（Mutanga等人，2012；Shah等人，2019）。根据我们的研究结果，NDVI和SAVI是RF和XGB中最重要的两个特征。NDVI提供了一种基于卫星的指标，用于评估植物健康和活力，统计上可以评估植被的绿色程度，并广泛指示植被的变化（Banerjee等人，2020）。NDVI能够准确检测高覆盖率和低覆盖率植被区域（Mehmood等人，2024）。多项研究强调了NDVI在FVC检索中的高重要性（Chen等人，2024；Mu等人，2024）。此外，根据Huete（1988）的研究，鉴于裸露土壤区域和植被之间的分布不均匀，SAVI是描述干旱地区植被的理想指标。本研究的结果支持了早期研究的发现，这些研究表明SAVI可以利用遥感数据来估算FVC（Yue等人，2021年；Zhong等人，2023年）。本研究中的训练模型被用来绘制加拿大不同省份多个田间第一生长周期的苜蓿FVC分布图。结果令人满意，并且与RGB图像高度吻合。然而，我们注意到早春时期田间存在的雪像素在地图中被预测为具有较高的FVC值。这是由于缺乏关于雪的数据进行训练所致。因此，模型之前从未遇到过雪像素，无法准确预测其FVC。未来在通过GEE API下载Sentinel-2图像时，可以像处理云和云影一样应用雪掩膜来解决这个问题，然后再将图像输入机器学习模型。基于无人机图像和RF模型得出的真实分类图显示，苜蓿和死亡区域的F1得分约为0.85。尽管我们付出了大量努力手动删除RF模型错误预测的地点，但仍可能存在一些误差。最终的FVC预测受两种误差影响：一种是来自分类图的误差，另一种是与机器学习模型本身的误差相关。未来的研究可以通过开发更健壮的深度学习模型来克服这一问题，这些模型应包含空间注意力机制，而不仅仅是依赖传统的机器学习分类方法。此外，本研究中的机器学习算法仅使用了苜蓿第一生长周期的无人机-卫星图像进行训练。虽然我们相信这些模型可以用于预测整个生长季节内的苜蓿FVC，但这可能需要验证分析来确保模型对其他生长周期的预测值是准确的。未来的研究可以通过结合其他生长周期的观测数据来训练模型，以解决这一限制。尽管本研究考虑了训练集和测试集的分割以及交叉验证，但测试样本和训练样本之间仍可能存在一定的空间自相关性。未来的研究可以通过将分布在整个研究区域内的部分田地设置为测试数据，或者使用其他分割方法（如空间交叉验证）来消除这种自相关性。此外，天气条件（如持续的云层覆盖）会限制光学卫星传感器的使用。对于美国北部和加拿大的苜蓿种植来说，这一问题尤为重要，因为这些地区的生长季节较短且云层覆盖较为常见。为解决这个问题，未来的研究可以将合成孔径雷达（SAR）数据与多光谱数据结合使用，或者利用高时间分辨率的光学数据来提高模型的可靠性。

**5. 结论**
本研究将高空间分辨率的无人机图像与Sentinel-2 MSI图像融合，以估算苜蓿的FVC。利用加拿大四个省份三年内的丰富地面测量数据，训练了两种机器学习算法（RF和XGB）。RF和XGB在预测苜蓿FVC方面都表现出色，其中RF的效果略优于XGB。结果显示，利用Sentinel-2数据以及RF或XGB，可以以约3.7%的均方绝对误差得出苜蓿FVC。通过对RF和XGB内置特征重要性工具的分析，NDVI和SAVI被确定为最重要的四个特征之一。本研究使用了通过GEE Python API公开可用的Sentinel-2卫星数据，因此可以在卫星数据可用时实时生成苜蓿FVC地图。本研究中的训练模型有潜力生成有助于识别田间生长问题并改善管理区域决策的FVC地图。未来的研究将致力于开发一种从无人机图像生成分类图的半自动方法，并探索在这些数据集上训练更高级的深度学习模型以提高分类精度。最后，将合成孔径雷达（SAR）数据与光学图像结合使用是进一步提高结果可靠性和稳健性的一个有前景的方向。

热点排行