基于物理引导特征解耦与HSI–LiDAR自适应协同融合的多模态遥感图像分类方法

《Algorithms》：A Multi-Modal Remote Sensing Image Classification Method Based on Physics-Guided Feature Decoupling and Adaptive Collaborative Fusion of HSI–LiDAR

【字体：大中小】 时间：2026年06月11日 来源：Algorithms 2.1

编辑推荐：

　　摘要：高光谱图像(Hyperspectral Image, HSI)与激光探测及测距(Light Detection and Ranging, LiDAR)数据提供互补的光谱与空间信息，被广泛应用于土地覆盖分类。然而，现有的融合—分类方法常受困于跨模态特征纠缠

摘要：高光谱图像(Hyperspectral Image, HSI)与激光探测及测距(Light Detection and Ranging, LiDAR)数据提供互补的光谱与空间信息，被广泛应用于土地覆盖分类。然而，现有的融合—分类方法常受困于跨模态特征纠缠及对LiDAR物理先验（尤其是数字表面模型(Digital Surface Model, DSM)）利用不足，限制了所学特征的可解释性与分类精度。为此，研究人员提出了一种物理引导的自适应解耦与协同增强网络(Physics-Guided Adaptive Decoupling and Collaborative Enhancement Network, ADCE-Net)，将显式几何引导嵌入多模态特征学习。在ADCE-Net中，DSM作为显式几何条件信号引导特征解耦，将输入表征分解为模态共享语义特征(Shared Semantic Features, SSF)与模态特有判别特征(Modal-Specific Features, MSF)，从而在早期阶段减轻跨模态干扰。基于此分解，设计了一种采用双向交叉注意力(bidirectional cross-attention)与动态门控的自适应协同增强机制，实现SSF与MSF间上下文感知的相互精炼，促进对跨模态互补信息的更有效利用。此外，构建了多层次协同分类架构以整合多尺度上下文表征，增强空间一致性与边界描绘能力。在Trento、Houston 2013及MUUFL Gulfport三个基准数据集上的大量实验表明，ADCE-Net的总体精度(Overall Accuracy, OA)分别达99.69%、97.37%和94.90%，优于支持向量机、三维卷积神经网络(3D-CNN)、基于Transformer模型及循环神经网络(Recurrent Neural Network, RNN)等多种代表性方法。对于少数类及光谱特征高度相似的类别亦取得显著提升。DSM驱动的物理引导同时提升了分类性能与特征可解释性，为多模态遥感分类提供了可靠且可解释的范式。

论文解读：基于物理引导特征解耦与HSI–LiDAR自适应协同融合的多模态遥感图像分类方法

研究背景与意义

高光谱图像(HSI, Hyperspectral Image)富含细微物质鉴别所需的光谱维度信息，但存在空间分辨率低、易受阴影影响及缺乏几何结构表征能力的问题；激光探测及测距(LiDAR, Light Detection and Ranging)数据可提供高精度三维几何与高程信息（通常以数字表面模型DSM, Digital Surface Model形式表达），却缺乏光谱特征，难以区分材质相似地物。二者具有显著互补性，融合分类是提升精度的关键途径。现有深度学习方法多采用简单拼接或固定加权融合，存在融合策略缺乏自适应性、跨模态交互多为单向或浅层、LiDAR衍生的DSM等物理先验仅作浅层辅助输入而未深入参与特征解耦，导致模态共享语义与模态特有判别信息相互纠缠，降低特征判别力与可解释性。针对上述问题，研究人员开展了以物理先验引导特征解耦并引入双向自适应协同融合的HSI–LiDAR融合分类研究，提出ADCE-Net并在三个公开基准数据集验证其优越性，论文发表于《Algorithms》。

主要关键技术方法

研究人员构建双分支编码器提取HSI（经PCA降维保留>99.5%方差）与LiDAR（DSM及强度、归一化DSM(nDSM)、坡度构成四通道几何输入）初始特征；设计物理引导解耦模块(PGDM, Physics-Guided Disentanglement Module)以DSM高度分层嵌入或条件批归一化注入作为条件控制信号，通过共享通道注意力生成解耦权重，将特征分解为模态共享语义特征(SSF, Shared Semantic Features)与模态特有判别特征(MSF, Modal-Specific Features)；设计自适应协同增强模块(ACEM, Adaptive Collaborative Enhancement Module)采用单次双向交叉注意力机制及门控动态加权实现SSF间互增强与MSF间互补交互，融合后生成最终联合表征；构建多层次协同分类器(MCC, Multi-level Collaborative Classifier)对编码器浅、中、深三层特征分别设轻量分类头，以可学习自适应权重融合多尺度预测对数(logits)；损失函数由主分类交叉熵、中间层辅助分类损失、DSM条件对比损失(约束SSF与MSF按高度层分离)及多尺度一致性损失构成，权重分别为1.0、0.5、0.3、0.4。实验在Trento(6类)、Houston 2013(15类)、MUUFL Gulfport(11类)数据集按每类50训练/50验证随机划分重复10次取均值，以总体精度(OA)、平均精度(AA)、Kappa系数评估，PyTorch实现，Adam优化，RTX 5060 GPU训练。

研究结果

3.1 Dataset

介绍Trento(意)、Houston 2013(美, 144波段, 15精细地类)、MUUFL Gulfport(美, 72波段, 11类城郊地物)三个HSI–LiDAR公开数据集及其地面真值类别与样本分布，确认其为标准评测基准。

3.2 Statistical Analysis of Input Features

通过对PCA降维后HSI特征分布、DSM高度分布及各类别DSM高度箱线图的分析，证实HSI特征具非高斯多峰分布保留类判别信息，DSM高度与地物语义类别强相关且具明显几何分层特性，为PGDM以DSM作物理先验引导特征解耦提供了统计依据。

3.3 Experimental Setting

详述PCA降维保留波段数(Trento 15, Houston 30, MUUFL 64)、LiDAR四通道几何增强、11×11空间块输入、半监督采样协议(每类50训/50验)、评价指标公式、对比基线(HyperMLP、CoupledCNN、ExViT、CLAC)、复合损失各分项含义及权重、训练超参( lr=1×10^-3, weight decay=1×10^-3, batch=64, 早停patience=10)，确保实验可复现。

3.4 Experimental Results and Comparison

定量结果表明ADCE-Net在Trento(O A=99.69%, AA=99.12%, κ=99.59%)、Houston 2013(OA=97.37%, AA=96.62%, κ=97.15%)、MUUFL(OA=94.90%, AA=86.07%, κ=93.26%)均超越对比方法；对光谱相似类(如停车场细分)及少样本类(黄漆路缘、织物板)识别显著改善，分类图显示建筑物边缘、窄路等细节更清晰、椒盐噪声更少，证明物理引导解耦与双向协同融合有效缓解模态干扰并提升边界描绘。

3.5 Convergence Analysis

训练/验证损失平稳下降、准确率曲线紧密吻合，Trento快速收敛，Houston稳定，MUUFL仅轻微震荡无发散，表明模型优化稳定、泛化良好且无严重过拟合。

3.6 Ablation Study

去除PGDM与ACEM致精度显著跌落；单独去PGDM使模型失去高度感知解耦能力，HSI光谱与LiDAR结构相互干扰，复杂城区退化明显；单独去ACEM退化为静态融合，削弱边界与小目标识别(AA与Kappa下降)。证实两模块分别从特征解耦与自适应再融合角度对性能贡献必要。

讨论与结论

研究人员指出ACEM中双向交叉注意力热图高响应集中于建筑边缘、植被边界及高程过渡区，均匀背景弱响应，验证了跨模态互补与模型可解释性。ADCE-Net优势在于DSM物理先验引导下显式解耦SSF与MSF并通过上下文感知双向注意力协同融合，兼顾语义一致性与判别力，分类图边界清晰、细部结构保留好。局限性含对DSM质量依赖、双分支加注意力致计算量偏高不利边缘部署、目前仅验证HSI–LiDAR双模态未扩展SAR/时序等。未来拟研究鲁棒高程先验提取、知识蒸馏/轻量化注意力压缩模型、扩展多时相或多源模态融合及半监督学习降低标注依赖。

结论：为解决HSI与LiDAR融合分类中语义纠缠严重及跨模态协作不足的问题，研究人员提出以物理引导解耦与自适应协同增强为核心的多模态融合框架ADCE-Net。其中PGDM利用DSM先验将特征显式分解为SSF与MSF以提升模态间语义一致性，ACEM通过交叉注意力与动态门控实现上下文感知的特征交互与融合。在Houston、MUUFL Gulfport及Trento三个基准数据集上ADCE-Net在分类精度、边界锐度及细部结构保持上均优于现有代表方法，消融实验验证了各核心模块有效性。本研究为多源遥感数据融合建立了高性能、可解释的新范式，推进了物理知识引导深度学习在遥感领域的理论融合，所生成高精度土地覆盖图适用于城市规划、环境监测及灾害评估等实际应用。

热点排行