《Remote Sensing Applications: Society and Environment》:Smart Integration of Sliding Window and Vote-Based Fusion: Advancing UAV-Based Instance Segmentation with YOLOv8 for High-Resolution Vegetation Mapping
编辑推荐:
高分辨率无人机影像植被分割中提出空间共识投票与置信加权融合方法,解决训练-推理尺度不匹配问题。实验表明该方法在DeepLabV3+和YOLOv8架构下实现8.2倍性能恢复,计算成本降低67%,且对少数类(如Lentisque)提升55.9%。揭示类不平衡方法会降低部署性能的焦点损失悖论,建立可扩展的尺度自适应推理框架。
Ilias Jennaoui|El Mostafa Bachaoui|Mohamed Biniz|Abderrazak El Harti|Abdrrahmane El Ghmari
摩洛哥贝尼梅拉尔苏丹穆莱·斯利曼大学科学与技术学院,地理信息学、地质资源与环境实验室
摘要
从高分辨率无人机图像中进行植被分割面临根本性挑战,这是因为训练阶段和推理阶段之间的尺度不匹配。当用于模型训练的高分辨率图像有限时,这一问题尤为突出,这需要采用基于补丁的方法,但这种方法会导致显著的尺度不一致性。本研究通过引入一种带有置信度加权的空间共识投票方法,解决了摩洛哥El Ksiba地区的高分辨率植被制图问题。与以往的多模型集成方法不同,所提出的方法使用单个模型为每个像素生成10-12个重叠预测,从而在尺度不匹配的情况下实现了8.2倍的性能提升,同时计算成本仅减少了3倍。通过对多种架构的全面评估发现,DeepLabV3+具有更高的精度(0.882)和边界连贯性,而YOLOv8则具有较高的召回率(0.923),适用于全面覆盖。与传统预期相反,尽管训练效果有所改进,但类别不平衡方法仍会持续降低部署性能。这项研究揭示了一个“焦点损失悖论”:+14.1%的训练改进由于与部署参数的复杂交互作用而转变为-1.7%的部署性能下降。此外,少数物种(如Lentisque)从尺度一致的推理中获益显著(+55.9%),远超过训练时平衡方法的效果。实验结果表明,该方法的平均交并比(Intersection over Union)为0.721,F1分数为0.826,既实现了全面的植被检测,又保证了分类的可靠性。通过解决在调整大小后的图像上进行训练时固有的尺度不匹配问题,本研究为遥感应用中的植被分割提供了一种可扩展的解决方案,并有望扩展到多模态传感器集成,以实现更精确的物种分类。
引言
无人机通过提供高分辨率的环境监测,彻底改变了遥感技术(Anderson & Gaston, 2013),尤其是在与深度学习结合使用时,对于植被制图尤为重要(Kattenborn et al., 2021)。尽管取得了这些进展,基于无人机的植被分割仍面临挑战,包括尺度不匹配、类别不平衡以及复杂的植被结构(Zaka & Samat, 2024)。当高分辨率训练数据有限时,这些问题会更加严重,因为基于补丁的训练会在训练和推理阶段之间产生显著的尺度差异(Quintana et al., 2023)。在小型补丁(280×280像素)上训练的模型在应用于全分辨率图像(5472×3648像素)时,通常会产生碎片化的分割结果。摩洛哥贝尼梅拉尔-凯尼夫拉省的El Ksiba地区是一个理想的研究地点,该地区具有大陆性气候和多样的植被类型,包括Lentisque、Thuya、Oxycèdre和Chêne vert。传统的遥感方法使用手工特征和滑动窗口技术(Blaschke, 2010)往往无法充分表示复杂环境中的植被特征(Zhang et al., 2021)。深度学习方法彻底改变了遥感图像中的对象检测(Cheng & Han, 2016),尤其是YOLO架构通过端到端特征学习提高了检测能力(Redmon et al., 2016; Bochkovskiy et al., 2020; Xu et al., 2024),但训练补丁与测试图像之间的尺度差异仍然会导致性能下降(Hoeser & Kuenzer, 2020)。最近的研究探索了多尺度特征融合(Jiao et al., 2021)和注意力机制(Ruan & Zhang, 2024)来应对这些挑战,然而计算需求往往限制了实际应用。
本研究解决了先前几项高度相关的遥感分割研究中的局限性。Yu等人(2022c)应用了基于瓦片的Mask R-CNN和非最大值抑制技术进行海洋养殖笼具实例检测,重点关注对象级别的重复分辨率,而非异构植被类别的像素级别语义分割。Yu等人(2022a, 2022b)分别使用SegNet和U-Net进行了分割,并结合多模型集成投票,分别在不同的尺度(256×256、512×512、1024×1024像素)上训练三个模型,然后通过像素级别多数投票方法聚合输出,但这需要3倍的训练计算成本,并且缺乏对类别不平衡的适应性处理。Luo等人(2024)的最新架构创新通过多模态融合无人机RGB数据和LiDAR数据增强了树木检测能力,而He等人(2024)通过融合注意力机制改进了植被分割。然而,这些方法主要关注特征提取的架构改进,而没有解决基于补丁的训练与全分辨率部署之间的根本尺度不匹配问题。本文提出了一种基于滑动窗口的推理策略和基于投票的融合方法,用于高分辨率植被分割。使用283×283的滑动窗口和70%的重叠比例,确保了测试补丁与训练数据之间的尺度对齐,而基于投票的融合机制增强了分类的置信度并改善了边界定义。该方法通过单一模型的空间共识投票方法和置信度加权融合,从根本上解决了尺度不匹配问题,实现了3.0-8.2倍的性能提升,同时计算成本仅增加了1倍。所提出的方法通过尺度自适应推理策略和空间共识投票,为植被分割提供了可扩展的解决方案,每像素生成10-12个重叠预测,并使用特定于类别的适应性阈值进行置信度加权投票。通过对多种架构的全面评估,发现最佳重叠比例和精度-召回率特性依赖于具体架构,表明尺度一致性是架构优化的8倍重要因素。这种方法对少数物种的检测具有显著优势(Lentisque提高了55.9%),并揭示了类别不平衡方法会降低部署性能的悖论。与混合金字塔网络(Tang et al., 2022)和自适应补丁融合技术(Srivastava et al., 2025)不同,所提出的方法在整个推理过程中保持了明确的尺度一致性,提供了计算要求较低的直接解决方案。实验结果证实了该方法的有效性,与直接推理相比,在预测一致性和边界定义方面取得了显著改进。这种可扩展的解决方案使得在高精度农业、生态监测和保护规划等应用中实现高精度植被分割成为可能。
材料与方法
为了解决高分辨率植被分割中的尺度不匹配问题,本研究在摩洛哥El Ksiba地区实施并优化了一种方法论,该地区具有多样的植被群落和复杂的地形,为测试提供了理想的环境。该方法结合了滑动窗口处理和基于投票的融合技术,专门针对训练和推理阶段之间的尺度不一致性问题进行了定制。
模型训练和验证性能
评估遵循逐步分析策略,首先评估模型训练性能,然后评估在高分辨率图像上的直接应用挑战,最后对所提出的滑动窗口和基于投票的融合解决方案进行全面评估。这种系统方法清楚地展示了尺度不匹配问题及其通过该方法的有效解决。
讨论
基于深度学习的植被分割面临训练阶段和推理阶段之间尺度不匹配的根本挑战。当训练数据集是从裁剪的高分辨率图像构建的,模型应用于全分辨率图像时会出现尺度不一致性问题。直接推理会导致性能严重下降,表现为分割结果碎片化和对象检测不完整(Li et al., 2021)。我们的比较分析证实了这种性能下降。
结论
本研究提出了一种基于滑动窗口推理和置信度加权投票的高分辨率无人机图像植被分割方法。所提出的方法解决了基于补丁的训练与全分辨率推理之间的关键尺度不匹配问题,与简单应用相比,性能提升了8.2倍。空间共识投票方法通过单个模型为每个像素生成10-12个预测,提供了显著的性能提升
CRediT作者贡献声明
Abderrazak El Harti:撰写 – 审稿与编辑,可视化。Abdrrahmane El Ghmari:撰写 – 审稿与编辑,可视化,研究。Mohamed Biniz:撰写 – 审稿与编辑,可视化,软件,数据管理。El Mostafa Bachaoui:撰写 – 审稿与编辑,验证,资源管理。Ilias Jennaoui:撰写 – 初稿撰写,可视化,验证,软件,方法论设计,概念构建
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
数据可用性
本研究期间生成和/或分析的数据集可向相应作者索取。
写作过程中生成式AI和AI辅助技术的声明
在准备本工作时,作者使用了Claude工具来辅助语言编辑和提升专业写作风格。使用该工具/服务后,作者根据需要审查和编辑了内容,并对发表文章的内容负全责。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
作者声明以下财务利益/个人关系可能被视为潜在的利益冲突:无
致谢
作者感谢苏丹穆莱·斯利曼大学的科学与技术学院为这项研究提供了资源和设施。