《Sensors》:MSS-MambaNet: A Mamba Framework for Building Extraction from Multi-Phase Disaster Imagery
编辑推荐:
灾害场景中的建筑物提取对于应急响应和灾后评估至关重要。不同于传统静态遥感影像,多阶段灾害影像包含灾害早期、中期和后期的场景,其中建筑物形态、类别分布与边界特征表现出显著的跨阶段异质性。这种阶段依赖性的变化显著增加了稳定语义分割的难度,尤其是在复杂损毁条件下。为
灾害场景中的建筑物提取对于应急响应和灾后评估至关重要。不同于传统静态遥感影像,多阶段灾害影像包含灾害早期、中期和后期的场景,其中建筑物形态、类别分布与边界特征表现出显著的跨阶段异质性。这种阶段依赖性的变化显著增加了稳定语义分割的难度,尤其是在复杂损毁条件下。为应对这些挑战,研究人员提出了用于多阶段灾害影像建筑物提取的MSS-MambaNet。该方法设计了多尺度架构,以克服Mamba中单尺度扫描的局限性,从而更有效地感知多样化的建筑物形态。为增强特征判别能力,研究人员引入了双域交叉门控融合(DDCGF)模块,通过空间域与频域表征之间的互补交互实现特征增强。此外,研究人员构建了像素感知动态加权(PADW)策略,自适应地强调失衡的前景像素与模糊边界区域,从而提升复杂灾害条件下分割结果的一致性。大量实验表明,MSS-MambaNet持续优于现有最先进方法,在仅有12.37 M参数量的条件下,平均mIoU达到92.78%,mF1达到96.25%。这些结果表明,所提出方法能够有效处理多阶段数据的异质性,为多阶段灾害影像中的建筑物提取提供一种稳定且高效的解决方案。
该论文发表于《Sensors》,围绕多阶段灾害影像中建筑物提取这一任务,系统讨论了灾害演化过程中跨阶段分布异质性对语义分割造成的影响,并提出了面向该问题的多尺度选择性状态空间模型(SSM,状态空间模型)框架MSS-MambaNet。研究背景在于,自然灾害发生后,遥感数据中的建筑物信息是灾情监测、应急救援与灾后评估的重要依据。然而,与常规静态遥感场景不同,多阶段灾害影像覆盖灾害早期、中期与后期,不同阶段中的建筑物由基本完整逐步转变为局部坍塌乃至高度破碎的残余结构,导致建筑物形态、前景—背景比例以及边界清晰度显著变化。这种变化使得传统卷积神经网络(CNN)方法难以同时兼顾远距离依赖和细粒度细节,也使Transformer在获得全局建模能力的同时面临较高计算代价。近年来Mamba等状态空间模型在长序列建模中展现出优势,但其原始机制主要面向一维序列,直接迁移到二维遥感影像时,常规线性扫描或栅格扫描会破坏图像局部空间连续性,并限制对多尺度结构的表征能力。与此同时,现有损失函数通常建立在全局类别比例和边界清晰度相对稳定的假设上,难以适应多阶段灾害影像中类别失衡与边界模糊程度随阶段变化而动态改变的现实情形。因此,开展一项兼顾多尺度表征、跨域特征融合和阶段自适应优化的研究,具有明确的方法学意义和应用价值。
研究人员围绕上述问题构建了MSS-MambaNet,以统一解决Mamba结构适配二维视觉数据时的多尺度不足、编码器—解码器间特征融合不充分,以及多阶段场景下优化目标静态化三类关键问题。总体框架采用U形编码器—解码器结构。编码端通过四阶段层级式特征提取获得多分辨率表征,并利用门控瓶颈卷积单元进行表征重校准;解码端按由深到浅的方式逐级细化语义信息,在深层引入Poly Kernel Inception模块进行初始语义增强,在其后通过MSS-Mamba模块实施全局—局部联合建模,并通过DDCGF模块在空间域与频域之间开展互补融合;训练阶段则引入PADW损失,对多阶段灾害场景中的像素级失衡与边界退化进行动态加权。实验表明,该框架在早期、中期和后期灾害场景下均获得最优或最优水平的建筑物提取效果,平均mIoU为92.78%,平均mF1为96.25%,参数量仅12.37 M,显示出良好的精度—效率平衡。由此可见,该研究的重要意义在于为多阶段灾害遥感影像中的稳定建筑物提取提供了一种兼顾全局依赖、局部细节和分布异质性的统一解决方案。
研究人员采用的关键技术方法主要包括以下几方面:其一,基于Mamba构建多尺度选择性扫描模块,通过全局路径中的增强SS2D与局部路径中的大选择核(LSK)并联,实现长程依赖建模与局部多尺度细节提取;其二,提出双域交叉门控融合(DDCGF)模块,在空间上下文细化模块(SCRM)与频谱细节增强模块(SDEM)基础上,利用交叉门控融合机制(CGFM)强化编码器和解码器之间的空频域特征交互;其三,提出像素感知动态加权(PADW)损失,将阶段先验与像素级类别失衡信息结合,用于联合优化Focal Loss与Dice Loss;其四,数据来自2018年9月28日印度尼西亚Petobo海啸事件的DigitalGlobe WorldView卫星视频,研究人员从有效关键帧中按早、中、晚三个阶段构建训练与测试样本。
在研究结果部分,论文首先给出了“Overview of the Proposed Framework”。该部分说明,MSS-MambaNet采用适配灾害场景结构渐进性退化特点的U形网络结构,编码器负责层级特征提取与跨尺度融合,解码器通过深浅结合的逐级细化策略,将MSS-Mamba、DDCGF与PADW分别对应到形态变化、特征融合不一致和阶段依赖优化困难三个核心挑战,形成统一框架。
在“Multi-Scale Mamba Block”部分,研究人员提出MSS-Mamba模块作为主干网络的核心构件,用于处理灾害不同阶段中极端尺度变化和复杂上下文干扰问题。该模块通过多尺度选择性扫描二维模块(M3S2D)联合建模全局与局部特征,再以轻量门控支路对输出进行自适应调制,最后结合残差连接生成输出特征。论文据此得出结论:该结构能够在保持线性复杂度的同时,更稳定地刻画从完整建筑到高度破碎残骸的多尺度结构信息。
在“Enhanced SS2D Global Pathway with Cascaded Channel–Spatial Attention”部分,研究人员在SS2D全局路径上引入级联通道—空间注意力机制。SS2D通过四个方向扫描实现远距离空间依赖建模,但标准SS2D生成的是较为各向同性的全局混合表征,不足以突出复杂灾害场景中最具判别性的通道和空间区域。因此,该部分先通过通道注意力(CA)突出信息性响应,再通过空间注意力(SA)聚焦关键位置。由此得出的结论是,增强后的全局路径不仅保留了Mamba在长程依赖建模中的优势,也提升了对建筑物结构关键区域的表征能力。
在“LSK-Based Local Pathway with Adaptive Multi-Scale Fusion”部分,研究人员为补足局部细节建模能力,引入基于LSK的局部路径。其通过并行深度卷积与空洞深度卷积提取细粒度与更大感受野上下文信息,再利用空间选择门生成自适应权重,对不同尺度特征进行逐像素加权融合。论文在该部分表明,局部路径能够根据输入内容动态选择合适感受野,从而更好地提取复杂灾害场景中不同尺度、不同破坏程度建筑物的局部结构细节。
在“Dual-Domain Cross-Gated Fusion Module”部分,研究人员提出DDCGF模块以增强编码器与解码器之间的特征交互。该模块由空间上下文细化模块(SCRM)、频谱细节增强模块(SDEM)和交叉门控融合机制(CGFM)三部分组成。研究结果显示,通过先分离建模空间域与频域信息,再实施双向交叉门控调制,可以减少不同表征之间的直接干扰,增强互补性。
在“Spatial Context Refinement Module (SCRM)”部分,研究人员使用局部分支与全局上下文分支联合建模空间结构一致性。局部分支通过级联空洞深度卷积提取多尺度局部模式,全局分支通过通道方向平均池化与最大池化生成空间注意描述子,随后两类信息融合并压缩通道。该部分结论是,SCRM能够在控制计算量的同时增强建筑物边界连续性与空间结构一致性。
在“Spectral Detail Enhancement Module (SDEM)”部分,研究人员利用可学习离散余弦变换(DCT)滤波器组将输入特征分解至频域,并通过频率注意力图突出有判别力的高频结构信息、抑制噪声响应,最后结合残差调制生成压缩后的输出特征。该部分表明,频域增强对于减少碎屑和伪影引起的假边缘、提升受灾后期复杂背景中的建筑物结构辨识度具有积极作用。
在“Cross-Gated Fusion Mechanism (CGFM)”部分,研究人员没有采用常规交叉注意力,而是设计了双向交叉门控调制机制。首先,融合后的特征经高效定位注意力(ELA)细化空间定位;然后生成两张空间注意图对编码器和解码器特征进行初步调制;进一步地,每一分支通过另一分支的sigmoid门控结果进行动态调制,最后通过逐元素交互和卷积重标定得到融合输出。该部分结论是,CGFM能够实现编码器与解码器之间更细粒度的双向信息引导,优于简单相加或拼接式融合。
在“Pixel-Aware Dynamic Weighting Loss (PADW)”部分,研究人员针对灾后建筑物分割中的前景—背景严重失衡和边界逐渐模糊问题,提出PADW损失。其核心在于根据每个训练样本的像素级类别失衡程度和灾害阶段上下文计算动态权重,并将该权重分别引入阶段感知Focal Loss与阶段感知Dice Loss。研究人员指出,固定类别权重和静态正则项无法适应多阶段分布变化,而PADW能够在训练中持续关注少数类建筑物像素及边界模糊区域,实现更加平衡的优化。
在“Datasets”部分,研究人员说明实验数据源于Petobo海啸事件的卫星视频序列。原始视频转换为帧序列并经预处理后保留301帧有效关键帧,标注通过支持向量机(SVM)辅助分类与人工目视修正生成,整体精度高于97%,Kappa系数高于95.50%。为检验跨阶段一致性,研究人员在早期、中期和后期各选取3帧,其中2帧用于训练、1帧用于测试。该部分的意义在于明确了研究是在同一灾害事件内的多阶段场景中评估方法性能,而非跨事件泛化验证。
在“Experimental Results and Analysis”部分,论文从定性、定量、跨阶段稳定性、复杂度与消融实验等多个方面验证方法有效性。在“Overall Performance Comparison”中,MSS-MambaNet在早期、中期和后期阶段均优于10种代表性分割网络。早期阶段,方法在mIoU、OA、mF1和Boundary F1(BF)上均取得最优,说明其对细长结构和精细边界具有更好的保持能力。中期阶段,在建筑物局部坍塌、结构不连续条件下,该方法取得92.27%的mIoU和94.09%的BF,显示其更擅长恢复断裂轮廓并减少漏检。后期阶段面对碎屑堆积和高度语义混杂,方法仍获得92.76%的mIoU、96.63%的OA和96.23%的mF1,说明其在极度退化场景中仍能较好保留稀疏建筑残余并抑制背景干扰。
在“Performance Across Disaster Phase”部分,研究人员比较了不同方法在早、中、晚三阶段的Building IoU变化。结果显示,MSS-MambaNet在各阶段分别达到91.98%、91.23%和90.49%,始终保持最高水平;从阶段过渡看,其从早期到中期仅下降0.75个百分点,从中期到后期仅下降0.74个百分点,表现出最均衡的退化模式。该结果说明,所提框架在灾害逐步恶化过程中具有较强的跨阶段一致性。
在“Comparison of Complexity”部分,研究人员从参数量、浮点运算量(FLOPs)、推理速度和精度四个方面评价效率。MSS-MambaNet参数量为12.37 M,FLOPs为42.09 G,在保持适中模型规模的同时获得所有比较方法中最高的Building mIoU 92.78%。这一结果表明,该方法实现了较好的精度与计算代价折中。
在“Ablation Study”部分,研究人员分别验证PADW、DDCGF和MSS-Mamba主干的独立作用及协同效应。结果显示,仅加入PADW就可使mIoU由91.33%提升至91.96%,说明动态重加权有助于处理类别失衡和边界模糊。与多种常见损失函数比较时,PADW在OA、mF1、BF和mIoU上均取得最佳表现,尤其在边界质量上优势明显。加入DDCGF后,mIoU进一步提高0.37个百分点,同时参数量略有下降,说明该模块提升了特征利用效率。引入MSS-Mamba主干后,mIoU由91.96%升至92.37%,并减少参数量,说明该结构增强了全局上下文建模与结构一致性。三者联合时,模型取得92.78%的mIoU、96.43%的OA和96.25%的mF1,证明各模块之间具有互补性而非冗余性。
讨论部分指出,MSS-MambaNet并未显式建模视频帧间时序一致性或损伤演化轨迹,而是聚焦于离散的早期、中期和后期灾害影像中的跨阶段建筑物提取。该方法将完整建筑、部分损毁建筑和高度破碎残余统一纳入“建筑物”概念,以支持灾害全过程中的一致性结构追踪。研究结果表明,该框架通过高效长程依赖建模、空频域互补特征判别和阶段感知自适应优化,能够在严重结构变化、遮挡和动态场景复杂性下维持稳定性能。同时,论文也明确指出,当前框架并不区分不同损伤等级,研究重点在于稳健结构提取而非精细损伤评估;此外,验证数据仅基于Petobo海啸事件的单一卫星视频,因此目前证据主要支持其在该特定灾害事件内部不同阶段上的稳定表现,尚不足以完全证明其在不同灾害类型、不同传感器、不同城市或不同成像条件下的普适泛化能力。
研究结论部分可译为:本研究提出了MSS-MambaNet,一种面向多阶段灾害影像建筑物提取的多尺度Mamba架构。该方法通过统一学习框架整合了高效长程依赖建模、跨域特征判别以及阶段感知自适应优化,用于应对从完整建筑到破碎残余这一跨阶段分布变化。大量实验表明,MSS-MambaNet在灾害早期、中期和后期均持续优于现有CNN、CNN–Transformer及Mamba类方法,并在适中的模型规模下获得更高的分割精度。结果进一步说明,该方法在严重结构变化、遮挡以及动态场景复杂性条件下具有稳定性能。未来工作将进一步拓展至损伤等级分类和更精细的语义类别划分,并在更多灾害事件、卫星传感器与地理区域上开展验证。