使用深度学习对Sentinel-1图像进行亚像素级别的土地覆盖分类

《Remote Sensing Letters》：Land cover classification of Sentinel-1 images at subpixel level using deep learning

【字体：大中小】 时间：2026年04月28日 来源：Remote Sensing Letters 1.5

编辑推荐：

　　摘要 Sentinel-1合成孔径雷达（SAR）图像在高分辨率土地覆盖制图中的实际应用常常受到其空间分辨率的限制，导致在异质景观中产生混合像素，从而影响分类精度。本研究通过提出并评估一个基于U-Net的深度学习（DL）框架来解决这一问题，该框架用于亚像素制图（SPM），并将其

　　摘要
Sentinel-1合成孔径雷达（SAR）图像在高分辨率土地覆盖制图中的实际应用常常受到其空间分辨率的限制，导致在异质景观中产生混合像素，从而影响分类精度。本研究通过提出并评估一个基于U-Net的深度学习（DL）框架来解决这一问题，该框架用于亚像素制图（SPM），并将其性能与最先进的DeepLabV3+架构进行对比，以从Sentinel-1单视复数（SLC）数据生成5米分辨率的土地覆盖地图。我们系统地评估了五种不同的数据配置组合，包括单轨道和双轨道（上升/下降）、特征指数和辅助信息，以分析它们对整个框架的贡献。结果表明，双轨道几何结构、有针对性的特征工程和辅助数据在提高类别区分度和空间细节方面发挥着关键作用。总体而言，研究表明，结合多方位SAR获取数据、互补特征和外部数据对于克服基于Sentinel-1 SAR数据的SPM中的固有传感器限制至关重要。

关键词：亚像素制图；Sentinel-1；遥感；深度学习；土地覆盖分类；SAR；数据融合

1. 引言
基于卫星的土地覆盖制图由于数据采集频繁和空间覆盖范围广而被广泛用于监测地球表面。然而，其精度常常受到传感器空间分辨率的限制，这会导致混合像素现象，即一个像素包含多种土地覆盖类型，从而在异质环境中降低制图性能（Shang等人，2023年）。为了解决这一问题，研究人员最初开发了软分类（或光谱解混）技术。虽然软分类可以估计类别比例，但缺乏空间定位能力。亚像素制图（SPM）通过将粗略的分数丰度转换为高分辨率的分类图来消除这种不确定性（Atkinson，1997年）。方法论上，该领域已从传统的统计方法（Atkinson，2005年）发展到深度学习（DL），其中卷积神经网络和生成对抗网络在恢复高保真空间细节方面占据主导地位（He等人，2021年；Shang等人，2022年）。尽管这些方法非常有效，但大多数基于DL的SPM研究主要集中在光学图像上。虽然光学传感器非常有效，但云层覆盖仍然是一个重大限制（Tiede等人，2021年），因此合成孔径雷达（SAR）成为一种重要的全天候替代方案。Sentinel-1 SAR数据通常以两种格式提供：地面回波检测（GRD）产品，提供后向散射强度；以及单视复数（SLC）产品，保留完整的复杂信号，包括极化相位和相关信息（Bourbigot、Johnsen和Piantanida，2016年；Filipponi，2019年）。在过去二十年里，SAR在不同的频率带、极化模式和多时相策略下被广泛用于土地覆盖制图，通常与光学数据结合使用（Antropov等人，2014年；Bruzzone等人，2004年；Waske和Braun，2009年；Waske和van der Linden，2008年）。历史上，SAR制图依赖于传统的机器学习方法结合手工制作的特征，如纹理测量和多时相统计，这需要大量的特定地点工程（Abdikan等人，2016年；Antropov等人，2014年；Waske和Braun，2009年）。深度学习的出现通过自动化特征提取彻底改变了这一工作流程。例如，??epanovi?等人（2021年）对七个最先进的语义分割架构（包括U-Net、DeepLabV3+和PSPNet）进行了全面的基准测试，用于国家级的Sentinel-1制图。尽管他们的结果显示了编码器-解码器架构的有效性，但分析仅限于像素级语义分割，本质上接受了传感器的粗分辨率限制。此外，这一基准测试突出显示了一个关键问题：当前的操作模型几乎完全依赖于后向散射强度（GRD），而保留相位的SLC信号尚未得到充分利用。

鉴于这些限制，基于DL的SPM在SAR数据上的应用仍然较少。为了补偿SAR固有的斑点和几何畸变，这些因素使得精细空间细节的恢复变得复杂（Choi和Jeong，2019年），近期文献大量依赖于SAR-光学融合技术。例如，Hu等人（2021年）和Dagne等人（2023年）证明，融合可以提高制图精度至90%以上，显著优于仅使用SAR的基线方法。这一趋势也扩展到SPM领域，Yin等人（2024年）和Schug等人（2022年）结合了Sentinel-1 GRD和Sentinel-2光学数据进行水体和建筑物制图，后者的决定系数（R2）达到了0.76。虽然这些基于强度的方法有效，但它们本质上丢弃了恢复复杂极化属性所需的相位信息（Bourbigot、Johnsen和Piantanida，2016年）。没有这些相位数据，这些模型在难以区分体积散射体（如植被）和稳定点目标（如城市结构）的模糊场景中会遇到困难。

基于这些不足，本文提出并评估了一个基于DL的框架，使用在干涉宽幅（IW）模式下获取的Sentinel-1 SLC数据进行亚像素土地覆盖分类。作为主要的操作模式，IW模式提供了广泛的覆盖范围，同时保持了足够的空间分辨率。我们特意选择了U-Net作为核心框架，利用其跳跃连接来恢复在更深入的网络中通常丢失的高频空间细节（Sun等人，2022年）。我们的贡献有三个方面：（1）一种专门的SAR-SPM架构，增强了U-Net的功能，通过注意力机制处理斑点引起的噪声，并采用PixelShuffle上采样策略来减少棋盘格伪影；（2）系统地评估了五种SAR数据配置，以分离各个信号组分的贡献，包括一个与GRD等效的基线，以便与实际操作进行公平比较；（3）评估了一种结合SAR与目标指数和辅助几何信息的协同策略。最后，由于Sentinel-1 IW仅提供双极化测量，因此本研究专注于从VV-VH数据构建的C2协方差表示中提取的双极化信息，而不尝试表示四极化传感器（如RADARSAT-2）的完整信息内容。

2. 研究区域和数据集
研究区域涵盖了荷兰中部的一个大型、多样的地区，包括Noord-Holland、Flevoland、Utrecht、Gelderland和Overijssel等省份的部分地区（图1）。该地区由城市区域、森林和水体混合组成，但主要由农业用地主导。所有数据集都投影到WGS 84/UTM Zone 31N（EPSG:32631）坐标参考系统中。图1显示了荷兰中部研究区域在底图上的位置。

3. 提出的方法
该框架通过使用DL模型将10米分辨率的Sentinel-1 SLC数据转换为5米分辨率的分类土地覆盖地图来执行SPM。研究区域被划分为58个不重叠的6×6公里瓦片，分为训练集（n=40）、验证集（n=9）和测试集（n=9），如图2所示。这些瓦片被随机划分为训练集（40个）、验证集（9个）和独立测试集（9个）。

3.1. 模型架构
该框架基于U-Net编码器-解码器架构（Ronneberger、Fischer和Brox，2015年），它通过跳跃连接将深层语义特征与精细空间细节相结合（图3）。Sentinel-1的128×128像素输入块（10米分辨率）被映射到256×256像素的输出块（5米分辨率），相当于放大倍数为r=2。该模型在TensorFlow中实现，并使用Adam优化器（学习率为1e-4，批量大小为16）训练了200个时代。模型采用多波段10米Sentinel-1数据作为输入，结合CBAM注意力模块进行特征细化，并使用PixelShuffle层进行最终2倍上采样，以生成5米分类土地覆盖地图。

3.2. 数据集和预处理
本研究使用的数据集在表1中进行了总结。从上升轨道（2023年5月21日）和下降轨道（2023年5月18日）采集的Sentinel-1 SLC数据使用ESA Sentinel应用平台（SNAP）进行了预处理。为了确保几何完整性，选择了所有三个IW子波段（IW1-IW3）及其组成的数据块。每个数据块分别通过TOPSAR分割、去块合并操作进行处理，生成连续的SLC图像，然后应用精确的轨道文件。随后进行了辐射校正，启用了复杂输出，以保留用于后续极化分析的相位信息。使用极化协方差矩阵计算操作从VV和VH通道生成了双极化2×2协方差矩阵（C2），之后应用了7×7 refine Lee极化斑点滤波器来减少噪声。过滤后的产品使用Copernicus数字高程模型进行了正射校正，重采样到10米×10米的像素间距，并投影到共同的地图几何格式中。最后，上升和下降轨道的数据块进行了配准，裁剪到它们的重叠范围内，并堆叠起来形成用于分析的多波段输入数据。

3.3. 辅助数据
地面参考是5米分辨率的LGN2023土地覆盖地图，其原始类别被汇总为六个主要主题类别：建筑区、森林、水体、农业用地、草地和灌木以及其他。辅助数据Basisregistratie Adressen en Gebouwen（BAG）是一个高分辨率建筑轮廓的国家级矢量数据集，使用Python rasterio库的rasterize函数将其栅格化为10米分辨率的二值层，为城市区域提供精确的几何信息。CBAM允许网络通过顺序应用通道注意力和空间注意力（图4，左侧）来适应性地学习在特征图中强调哪些内容和位置，这使模型能够通过关注最具信息量的通道和位置来重新调整特征；这对于区分具有细微纹理和双极化后向散射差异的土地覆盖类别至关重要。图4. U-Net架构中的关键增强模块。（左侧）CBAM，它顺序应用通道注意力和空间注意力来细化特征。（右侧）PixelShuffle机制，它通过将通道维度的元素重新排列成空间块来高效地执行最终的上采样。阅读此图的详细描述。

该图有两个面板。左侧面板显示了卷积块注意力模块（CBAM）。一个标有“输入特征”的蓝色立方体依次经过“通道注意力模块”和“空间注意力模块”的处理。在每个阶段，注意力权重通过元素级的乘法应用于特征图，如圆形乘法符号所示，以选择性地强调重要特征。最终输出是一个标有“细化特征”的蓝色立方体。右侧面板展示了PixelShuffle机制。左侧显示了四个堆叠的特征图，每个特征图都有一个3×3的网格。标有“旧单元大小”的黄色轮廓突出显示了低分辨率输入中的一个单元。带有“重新排列”标签的虚线箭头展示了如何将四个堆叠特征图中的每个单元重新排列成输出中的2×2块，如标有“新单元大小”的蓝色轮廓所示。这扩大了3×3的空间网格为6×6的网格，展示了PixelShuffle如何减少通道深度以提高空间分辨率。

对于最终的上采样阶段，我们用PixelShuffle层替换了标准的转置卷积（Shi等人，引用2016年）。这种技术提供了两个关键优势。首先，它实现了高效的、学习到的上采样，这可以减轻转置卷积通常产生的棋盘格伪影，从而得到空间上更清晰、更连贯的最终地图（Odena、Dumoulin和Olah引用2016年）。其次，它将最终分类和上采样整合为一个无缝的操作，将通道维度的元素重新排列成空间块以提高分辨率（图4，右侧）。该层将特征图的形状从(C×r2, H, W)重新排列为(C, H×r, W×r)，其中C是类别数量，r是上采样因子，H和W分别是输入的空间高度和宽度。然后应用最后的Softmax激活函数来产生每个像素的类别概率。

为了进行基准测试，我们还实现了DeepLabV3+架构（Chen等人，引用2018年）。虽然原始实现优先考虑了更深的骨干网络，但我们使用了用ImageNet权重初始化的ResNet-50骨干网络，这与最近的卫星图像应用技术一致（Gharahbagh等人，引用2025年）。为了使该基线能够输出亚像素级结果，我们修改了最终解码器，加入了一个可学习的转置卷积层，将10米输入特征投影到5米目标分辨率。基准测试使用相同的超参数进行训练，以确保直接和公平的比较。

3.2. 复合损失函数
标准的像素级损失函数（如交叉熵）对于SAR土地覆盖分类来说往往不是最优的，因为存在两个主要挑战：（1）显著的类别不平衡，其中主导类别可能会压倒学习过程；（2）在斑点和几何歧义存在的情况下难以划定精确的边界（Bischke等人，引用2018年）。为了解决这个问题，我们设计了一个复合损失函数LTotal，它结合了两个专门的术语，如方程（1）所示：
LTotal = LFocal + ηGLGradient(1)
(1) LTotal = LFocal + ηGLGradient(1)
第一个术语LFocal是一个加权聚焦损失，旨在对抗类别不平衡（Lin等人，引用2020年）。它动态减少来自已正确分类像素的损失贡献，迫使模型关注更难的例子。每个像素的聚焦损失定义为：
LFocalpixel = ?α1 ? pt log pt(2)
其中pt是模型对真实类别的预测概率，聚焦参数γ（设置为3.0）增加了对难例的关注，α（设置为0.75）是一个平衡因子。为了进一步减轻类别不平衡，每个像素的最终损失通过一个逆频率类别权重ωc进行加权。

第二个术语LGradient专门用于提高预测边界的空间质量和清晰度。该术语计算预测概率图的Sobel梯度与真实标签图之间的均方误差。这鼓励模型生成具有更精确和空间上一致类别边界的输出，这种技术已被证明对于SAR图像处理是有效的（Aghababaei等人，引用2023年；Vitale、Ferraioli和Pascazio，引用2020年）。总体梯度损失是根据方程（3）计算出的每个类别梯度损失的加权平均值：
LGradient = 1/C ∑c=1C ωedge,c LGrad,c
(3) LGradient = 1/C ∑c=1C ωedge,c LGrad,c
其中LGrad,c是类别c的梯度损失，ωedge,c是从类别c的边缘像素的逆频率计算出的权重，优先考虑较少见土地覆盖类型的边界准确放置，C是类别总数。方程（1）中用于平衡两个损失组分的超参数ηG被设置为5.0，这是基于实验得出的。

3.3. 通过实验场景进行系统评估
为了 separately isolate the contributions of different data components and processing strategies, 我们系统地评估了五种实验场景。这种方法提供了关于影响基于SAR的SPM准确性的因素的清晰洞察。这五种场景逐步增加了信息量，分别是：场景1（单轨道双极化SAR）：仅使用来自上升轨道的四个C2协方差矩阵组件的基线配置。场景2（双轨道强度）：使用来自上升和下降轨道的VV和VH通道的强度图像来评估几何效应。此配置作为GRD等效的基线，因为它有意排除了SLC数据特有的相位和交叉极化相关项，从而可以直接评估SLC特定信息的附加价值。场景3（双轨道双极化SAR）：联合使用来自两个轨道的双极化数据的C2协方差信息。场景4（双极化SAR + SDWI）：通过包含Sentinel-1双极化水指数（SDWI）来扩展场景3，该指数来自VV和VH通道的对数变换（Du等人，引用2023年），专门针对水体分类。场景5（双极化SAR + SDWI + BAG）：最全面的配置，融合了最佳SAR配置（即场景4）和辅助的BAG建筑轮廓层。

4. 结果与讨论
U-Net框架的性能在五种实验场景中进行了评估，以评估不同SAR数据配置对SPM性能的影响。为了进行视觉比较，图5显示了代表性测试瓦片的定性结果。从场景1的嘈杂基线到场景5的精细化、结构上连贯的地图，分类质量的逐步改进是显而易见的。阅读此图的详细描述。该图包含六个地图，分为两排，每排三个。左上角面板是参考土地覆盖图。其他五个面板显示了场景1至场景5的预测土地覆盖图：单轨道SLC、双轨道强度、双轨道SLC、双轨道SLC + SDWI和双轨道SLC + SDWI + BAG。所有地图都使用图例中显示的相同的六个土地覆盖类别：建筑区用红色表示，森林用深绿色表示，水体用蓝色表示，农业用地用米色表示，草地和灌木丛用浅绿色表示，其他用地用深灰色表示。在各个面板中，可以直接比较相同的城市、植被和水体特征。参考图显示了一个详细的城市模式，建筑区主要集中在右侧和下方，中心和左侧有大片森林区域，以及几个蓝色的水体。场景1看起来最嘈杂且最破碎。场景2和3在整体结构上有所改善。场景4改善了水体的表征。场景5与参考图最为接近，建筑模式更清晰，植被区域更连贯，与整体土地覆盖结构更吻合。

表2报告了所有瓦片的定量结果，显示了在固定U-Net架构下不同数据配置的相对影响。架构比较在第4.3节中另行讨论。

表2. 五种数据配置的准确性评估。报告了训练集、验证集和测试集的总体准确率（OA）、Kappa系数和F1分数，以展示分类性能的逐步改进并评估模型的泛化能力。下载CSV。

4.1. 双轨道几何和相位信息的关键作用
初步场景显示，补偿SAR引起的几何失真是准确分类的基本要求。仅依赖单次上升轨道的场景1产生了高度破碎的地图（图5）和较差的每个类别性能，对于“建筑区”（0.44）和“水体”（0.13）等具有挑战性的类别，F1分数较低。这些误分类主要是由于重叠、阴影和缩短效应造成的，这些效应是单次观测几何无法解决的。通过结合上升和下降轨道的观测，场景3几乎所有类别的性能都得到了显著改进。具体来说，“建筑区”的F1分数上升到了0.51，“水体”的F1分数上升到了0.24，这证实了多角度观测可以减少几何失真并产生更空间一致的地图。这突出了双轨道数据的几何完整性是基线SPM性能的主要驱动力。

从仅强度的基线（场景2）过渡到完整的SLC输入（场景3）为“水体”类别带来了额外的好处，其中F1分数几乎翻了一番。这表明SLC数据中保留的相位和极化相关性包含了强度数据所缺乏的区分信息。这一发现与之前的报道一致，即使用C波段强度数据时水体的准确率较低（Waske和Braun引用2009年），以及在PolSAR数据集中也存在与湿度相关的混淆（Antropov等人，引用2014年）。相比之下，相位信息对于区分“建筑区”和“草地和灌木”类别的帮助有限，表明在Sentinel-1分辨率下，城市可区分性主要是由几何因素驱动的。

4.2. 特征工程和数据融合的影响
虽然双轨道几何建立了一个强大的基线，但通过有针对性的特征工程和数据融合解决了特定类别的歧义，进一步获得了改进。场景4通过将SDWI添加到双轨道SLC数据中，显著提高了“水体”类别的性能（F1分数从0.24提高到0.52）。这种改进在图5中可见，在场景3中之前与农业用地混淆的几个水体在场景4中得到了更明确的划分。然而，一些水体像素仍然被错误地分类为农业用地，特别是在田地边界附近和季节性淹没的农田中。这一限制反映了散射物理的限制，而不是模型能力的问题。正如Antropov等人（引用2014年）所观察到的，季节性湿润的农田可能会表现出类似于开放水域的C波段后向散射响应；尽管SDWI减少了这种混淆，但它无法完全解决双极化Sentinel-1数据中由湿度引起的类别重叠问题。

为了应对“建筑区”类别的类似挑战，我们首先探索了双极化雷达建筑指数（DpRBI），该指数已被证明可以增强Sentinel-1双极化数据中的建筑区域检测能力（Verma等人，引用2023年）。虽然DpRBI提高了城区的一般可检测性，但其精确划分单个建筑轮廓的能力仍然有限。“这与之前的研究一致，这些研究表明Sentinel-1的空间分辨率和侧视成像几何引入了诸如重叠、缩短、遮挡和方向依赖的散射等效应，这复杂化了从Sentinel-1 SAR数据中可靠地划分轮廓（Shahzad和Zhu引用2015年；Verma等人，引用2023年）。这些众所周知的约束促使我们整合了外部几何信息，而不仅仅依赖于SAR衍生的特征。场景5中的数据融合策略，其中包含了辅助的BAG建筑轮廓，对于城市地图绘制非常有效。“建筑区”类别的F1分数从0.49提高到了0.77，表明BAG数据提供了强大的几何先验，弥补了Sentinel-1的固有局限性。这也减少了与“草地和灌木”以及“其他”类别的混淆，它们的F1分数分别从0.51提高到了0.60和0.33。

4.3. 与现有技术的比较
为了与现有架构（Gharahbagh等人，引用2025年）进行严格评估，我们使用了最佳数据配置（场景5）进行了直接比较。DeepLabV3+基准的性能指标总结在表3中。所提出的U-Net框架的表现优于DeepLabV3+基线，实现了64.7%的OA，相比之下为57.5%。尽管DeepLabV3+通过其Atrous Spatial Pyramid Pooling（ASPP）模块在捕捉全局上下文方面表现出色，但我们的分析表明，它在保留5米分辨率SAR（SPM）所需的高频空间细节方面存在困难。相比之下，所提出的U-Net结合了CBAM注意力和PixelShuffle上采样技术，成功恢复了细微的 spatial 季节性变化，从而显著提高了“Built-up”F1分数（0.77对比0.61）。表3显示了DeepLabV3+在独立测试集上的准确性评估结果。为了对比，所提出的U-Net的相应指标列在表2的Scenario 5列中。下载CSV文件或查看表格。

为了确保实验设计的可控性，DeepLabV3+模型是在与所提出的框架相同的条件下进行训练的（即使用相同的损失函数、优化器配置和数据分割方式）。虽然这种方法能够区分不同架构之间的差异（特别是ASPP模块与提出的增强注意力的PixelShuffle重建方法之间的效果），但它限制了对特定架构的超参数优化。尽管如此，在相同的训练约束下评估模型仍然是区分不同架构差异的标准做法。因此，如果为DeepLabV3+量身定制调整策略，它有可能实现更高的性能。

4.4 模型性能与局限性的洞察
研究结果确立了基于Sentinel-1的SAR准确性的清晰层次结构。双轨道几何结构至关重要，相位信息能带来额外的优势，而最大的提升来自于有针对性的特征工程（SDWI）或数据融合（BAG），这些方法能够解决SAR固有的局限性。Scenario 5的成功凸显了一个关键权衡：尽管数据融合产生了最高的准确性，但依赖高质量辅助数据（如BAG建筑轮廓）会限制地理上的泛化能力。正如第4.2节所讨论的，由于几何限制，直接从Sentinel-1数据中提取精确的建筑轮廓仍然具有挑战性，这使得仅使用SAR的Scenario 4成为更广泛适用的方案。然而，依赖辅助数据并非根本性的限制。通过使用全球范围内可获得的开放数据集（例如最近发布的Global Building Atlas（Zhu等人，2025年引用）），可以轻松扩展这一方法。此外，将建筑轮廓单独处理可以避免主网络在处理其他任务时遇到困难。这为准确绘制城市区域提供了一种实用且可扩展的方式。

我们还需注意实验验证策略中的一个限制：由于类别不平衡问题严重（罕见的地表覆盖类型（建筑区域和水体）集中在少数几个tile中），因此采用了基于tile的随机分割方法，而不是空间上不重叠的group-k折交叉验证。如果采用严格的空间分割策略，这些类别可能会被排除在训练之外。虽然这种方法确保了统计代表性并防止了数据遗漏，但它没有完全考虑空间自相关性，从而限制了我们对模型在完全未见区域泛化能力的评估。这可能是导致训练/验证性能与测试性能之间存在差距（例如，在Scenario 5中观察到6.7%的OA下降）的原因之一。未来的工作应该通过整合更大规模、地理多样性更强的训练数据集来解决这一问题。

5. 结论
本研究展示了通过明确的设计选择，可以利用Sentinel-1实现高精度的SAR。双轨道采集的几何完整性是前提条件，而SLC数据中保留的相位信息为湿表面提供了额外的判别能力，这是仅基于强度的表示方法所缺乏的。通过有针对性的特征工程和数据融合，我们进一步提高了性能，特别是辅助建筑轮廓数据在城市测绘中表现出色。然而，水和季节性湿润农业用地之间的持续混淆揭示了C波段双极化SAR的一个根本物理限制。尽管依赖辅助数据会在地理泛化能力上产生权衡，但全球开放数据集的日益增加使得这种方法在操作上变得可行。最后，观察到的泛化差距强调了需要更大规模、地理多样性更强的训练数据集以及空间上不重叠的验证策略。总体而言，这项工作证实了多几何结构采集、相位保留和任务特定数据融合的协同整合为克服基于SAR的SAR的固有传感器限制提供了可行的途径。

热点排行