基于无人机多光谱影像与冠层高度模型的自适应多源实例分割单木树冠勾绘

《Ecological Informatics》：Adaptive multi-source instance segmentation for individual tree crown delineation using UAV multispectral imagery and canopy height models

【字体：大中小】 时间：2026年03月31日 来源：Ecological Informatics 7.3

编辑推荐：

　　准确勾绘单木树冠（Individual Tree Crown Delineation, ITC Delineation）是精准森林经营、碳收支核算及生态监测的基础，但受冠层重叠、阴影效应及单一数据源难以同时捕捉冠层光谱与垂直结构信息的限制仍具挑战。虽然卫星遥感

准确勾绘单木树冠（Individual Tree Crown Delineation, ITC Delineation）是精准森林经营、碳收支核算及生态监测的基础，但受冠层重叠、阴影效应及单一数据源难以同时捕捉冠层光谱与垂直结构信息的限制仍具挑战。虽然卫星遥感具有广时空覆盖优势，但 freely available 影像的空间分辨率通常不足以支撑可靠的单木级制图。无人机（Unmanned Aerial Vehicle, UAV）可获取局部至区域尺度的高分辨率多源遥感数据；然而仅依赖孤立数据源仍制约了冠层光谱变异性与垂直结构的联合表征。针对上述问题，研究人员提出一种自适应多源实例分割框架，将UAV多光谱影像（R、G、B、Near-Infrared[NIR]及Red-Edge[RE]波段）与冠层高度模型（Canopy Height Model, CHM）相融合。该框架以Mask R-CNN为基础，引入置信度图估计器（Confidence Map Estimator, CME）以提升边界可靠性，并采用自适应融合模块（Adaptive Fusion Module, AFM）在实例层级平衡跨模态特征贡献。此外，结合基于边缘的特征筛选与交叉占用实例合并（cross-occupancy instance merging）以缓解影像分幅切分（tiling）诱发的边界伪影并增强全局分割一致性。实验结果表明所提框架在单木树冠分割中稳定优于仅用RGB的基线模型。最优配置下平均精度均值（mean Average Precision, mAP）达0.678、平均召回率均值（mean Average Recall, mAR）达0.755，较RGB-only基线分别提升10.6与6.6个百分点。林分参数估测方面，郁闭度预测R2提升0.11、相对均方根误差（relative Root Mean Square Error, rRMSE）降低6.12%；单木计数R2提升0.07、rRMSE降低4.85%。综上，本研究给出了一个涵盖UAV多源数据采集、自适应跨模态融合、实例分割及树冠勾绘的一体化工件流程，结果表明带自适应融合的多源协同集成可提升单木树冠勾绘与林分级森林参数估测的精度与一致性，为森林经营、碳核算及相关生态监测提供了一种可扩展、可部署的解决方案。

论文解读：《Adaptive multi-source instance segmentation for individual tree crown delineation using UAV multispectral imagery and canopy height models》发表于《Ecological Informatics》

一、研究背景与意义

单木树冠（Individual Tree Crown, ITC）勾绘系精准林业经营、碳储量核算及生态干扰监测之前提。地面调查虽精确但空间覆盖有限、成本高且更新周期长；卫星遥感可大范围监测但其 freely available 影像空间分辨率通常不足以可靠区分相邻单木冠幅。UAV平台可提供高分辨率、灵活且具成本效益的观测数据以弥补二者不足。深度学习之语义分割与实例分割（特别是Mask R-CNN）已被应用于森林场景之单木检测与冠层提取，但单一数据源（尤仅RGB）往往无法充分利用光谱与结构信息之互补关系。现有多源（多光谱影像＋CHM/LiDAR）融合法多依赖固定或均匀融合策略，忽略高分辨率UAV影像的空间异质性与实例级边界不确定性，且简单多模态叠加易引入冗余噪声并降低计算效率。因此，研究人员开展了基于自适应多源实例分割框架之单木树冠勾绘研究，旨在解决光谱-结构信息未在实例级充分挖掘、固定融合策略欠自适应、大区域分割兼顾精度与效率难三大问题，并在西藏林周县山区针叶纯林开展实证，最终验证所提方法之有效性及林分参数估测价值。

二、主要关键技术方法

研究人员于西藏林周县选取 juniper（Juniperus spp.）纯林为研究区，采用DJI Mavic 3 UAV以地形跟随模式航飞获取RGB及多光谱（R、G、B、NIR、RE）影像，经SfM（Structure from Motion）流程处理生成数字表面模型（DSM）、RGB正交影像（DOM）、NIR与RE正交影像及密集点云，再利用LiDAR360归一化生成冠层高度模型（CHM），并将影像裁为512×512像幅按6:2:2划分训练/验证/测试集，以1800个人工标注单木树冠为金标准。以ResNeXt50-backbone之Mask R-CNN为基础架构，分别构建：①置信度图估计器（Confidence Map Estimator, CME）——通过双卷积层由RGB＋多源（NIR、RE、CHM）输入生成像素级边界置信度图并对特征图做元素乘抑制模糊边界；②自适应融合模块（Adaptive Fusion Module, AFM）——对RGB与多源（Multispectral, MS）特征图做全局平均池化（Global Average Pooling）、1×1卷积＋Sigmoid生成通道权重再重标定特征后逐元素相加并经3×3卷积＋批归一化（Batch Normalization, BN）＋ReLU融合；③边缘重要性筛选——沿冠缘法线方向内外侧采样并结合多种植被指数（Vegetation Index, VI：NDVI、NDREI、MTVI₂等）以Logistic回归、随机森林及XGBoost评估特征重要性优选Top3参与融合；④早融合（Early Fusion，多波段拼接输入）与晚融合（Late Fusion，分支独立提取特征后逐元素加）对照；⑤基于交叉占用率（cross-occupancy ratio＞20%）之实例合并后处理以消除分幅切分导致之重复与断裂。模型于NVIDIA RTX 4090上用PyTorch实现，以AdamW优化器、学习率0.0001、权重衰减0.0001、批次大小4训练，采用Test Time Augmentation（TTA）及Wilcoxon符号秩检验进行统计显著性验证，并以mAP（IoU 0.50:0.95）、mAR、Calinski–Harabasz（CH）分数、决定系数R²及rRMSE评估分割与林分参数精度。

三、研究结果

3.1. Accuracy of baseline models（基线模型精度）

研究人员对比ResNet50/101、ResNeXt50/101-backbone之Mask R-CNN及Mask2Former、DI-MaskDINO、YOLO11/12、ContourFormer、Mask-RT-DETR-H等先进实例分割模型。RGB-only Mask R-CNN(ResNeXt50)获mAP＝0.572、mAR＝0.689；最强基线Mask-RT-DETR-H为mAP＝0.619、mAR＝0.730。各强基线差异不大，表明冠层重叠与数据结构复杂性亦制约精度上限，故选定ResNeXt50-Mask R-CNN为后续多源融合实验之基准。

3.2. Ablation experiments of multi-source fusion models（多源融合模型消融实验）

加入CHM(RGB-H)、NIR(RGB-N)、RE(RGB-E)及全源组合(RGB-NEH)均较RGB-only有提升，其中早融合与晚融合次之。仅引入CME（Model-1）或仅AFM（Model-2）均有增益，AFM贡献更大；二者联合（Model-3，含CME＋AFM）效果最优——RGB-H时mAP＝0.636、mAR＝0.733，RGB-NEH时mAP＝0.653、mAR＝0.752，较RGB-only分别提升约10.6与6.6个百分点。经边缘重要性筛选优选MTVI₂等植被指数替换原始RE参与融合之RGB-VI配置进一步略增mAP。t-SNE可视化显示RGB-VI之冠层/背景及冠间特征分离度（CH分数更高）最优，说明植被指数增强边界判别并减少过/欠分割。视觉对比显示RGB-VI漏检与过分割最少。

3.3. Accuracy evaluation of tree- and stand-level parameter extraction（单木与林分级参数提取精度评价）

参数提取精度排序：郁闭度＞南北冠宽＞东西冠宽＞冠面积＞单木计数。RGB-VI优于其余配置。郁闭度估算R²较RGB-only提升0.11，rRMSE降6.12%；单木计数R²提升0.07，rRMSE降4.85%。Wilcoxon检验表明含CHM与多光谱之融合组合较RGB-only差异具统计显著性（p＜0.05），证实改进非随机波动。

3.4. Tree crown delineation based on instance merging（基于实例合并之树冠勾绘）

选用RGB-VI(Model-3)并设交叉占用阈值20%、重叠52像素(≈10% tile宽)做实例合并。合并前分幅切分处可见明显冠缘伪影与重复计数；合并后边界连续、单木计数相对误差降低，郁闭度几无变化，确认实例合并是大规模制图必要步骤。

四、讨论与结论总结

讨论指出多源数据融合优势源于光谱（RGB、NIR、RE及VI）与结构（CHM）信息互补——CHM提供垂直梯度助分重叠冠层，NIR/RE及VI增强叶绿素与冠层活力敏感性。传统早融合易放大噪声，晚融合损失细粒度跨模态交互；所提CME显式建模像素级边界可靠性以抑制阴影与重叠区不确定，AFM借通道注意力动态调节异源特征贡献，优于固定策略。t-SNE揭示RGB-VI提升中间层特征可分性进而稳化分割。林分级参数（郁闭度、树密度）对局部分割错判较不敏感故融合带来显著R²与rRMSE改善。实例合并消减tile边界效应确保大面积制图一致性。作者亦指出SfM-derived CHM于高郁闭与复杂地形存冠顶偏差、多源融合增计算量及对配准要求高、跨生境泛化待验证等局限，未来拟引入LiDAR、轻量化推理及域适应学习。

结论（翻译浓缩）： 本研究提出一种融合UAV多光谱影像与冠层高度模型（CHM）之自适应多源实例分割框架用于单木树冠勾绘。通过融入置信度图估计器（CME）与自适应融合模块（AFM, Adaptive Fusion Module），该框架增强了边界可靠性、实现了光谱与结构互补信息之有效整合，并缓解了影像分幅切分诱发之边缘伪影。结果表明自适应多源融合较单一数据源提供更准确且一致之冠层分割，同时提高林分级森林参数估测之可靠性，尤适于大面积制图场景。本工作强调了在UAV森林实例分割中显式建模跨模态特征平衡与边界可靠性之重要性，并为精准森林监测与生态评估提供了一个实用且可扩展之框架。

[citation:论文全文]

热点排行