基于辅助RGB–T特征蒸馏的无监督语义分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：Distilling auxiliary RGB–T features for unsupervised semantic segmentation

【字体：大中小】 时间：2026年04月08日 来源：Image and Vision Computing 4.2

编辑推荐：

　　无监督语义分割（USS）旨在不依赖标注数据的情况下将图像像素归类为语义群组。现有USS方法主要在RGB图像上操作，并利用自监督视觉Transformer（ViTs）建模语义相关性，但其性能在不利光照条件下会严重退化，原因在于RGB模态固有的局限性。为应对这一挑

无监督语义分割（USS）旨在不依赖标注数据的情况下将图像像素归类为语义群组。现有USS方法主要在RGB图像上操作，并利用自监督视觉Transformer（ViTs）建模语义相关性，但其性能在不利光照条件下会严重退化，原因在于RGB模态固有的局限性。为应对这一挑战，研究人员提出DARTS，一种新颖的多模态框架，该框架联合利用热红外光谱与RGB输入中的互补信息来进行无监督语义分割。观察到自监督ViT跨模态产生语义一致的特征结构，研究人员设计了一个配备特征相关性损失的多模态特征融合模块，从RGB–热成像（RGB–thermal）对中学习可聚类的、光照不变的表征。该融合模块在单个双模态ViT块内整合自注意力与交叉注意力，以选择性地提取互补特征，随后通过线性融合机制进行联合表征学习。为引导无监督训练，研究人员引入模态内和跨模态特征相关性损失，对模态内和模态间的特征进行对比与蒸馏，鼓励生成紧致且具有语义意义的像素嵌入。DARTS可无缝集成到现有USS流程如STEGO、SmooSeg、EAGLE和DepthG中，在挑战性光照条件下持续提升分割质量。在KP、PST900、MFNet和SemanticRT数据集上的大量实验表明，DARTS在单模态基线方法之上实现了更优的性能，尤其在夜间、眩光或低能见度环境中表现突出。

语义分割是将图像分割为其组成语义类别的任务，在自动驾驶、医学影像、摄影等领域具有广泛应用。监督学习范式下的语义分割近年来取得显著进展，但其泛化能力主要受训练数据数量和质量制约，获取大量标注数据费时费力且成本高昂，这推动了无监督学习的发展。

无监督语义分割（USS）技术执行与监督技术相同的任务但无需标签，其中最简单的方法通过聚类RGB像素表征形成区域，每个区域代表一个语义类别，聚类性能很大程度上取决于像素表征的丰富程度。近期引入的自监督视觉Transformer——无标签自蒸馏（DINO）提供了具有丰富语义信息的鲁棒像素表征，使得基于k-means或KNN算法的有效分割成为可能。STEGO进一步探索了这一能力，引入对比学习框架，以预训练DINO为骨干，通过蒸馏数据集中相似与不相似特征之间的相关性来学习更优像素表征。

现有USS工作假设图像光照良好、特征鲜明、边界清晰、上下文充足，但夜间驾驶和低光照等挑战性条件下情况往往并非如此，包括低光照导致的物体可见度受限、人工光源引起的图像伪影和眩光、运动模糊等问题。在这些条件下，现有方法难以区分物体，尤其是当不同类别因光照畸变或可见度降低而表现出相似强度时。仅使用RGB图像难以解决该问题，但为利用热成像作为辅助模态提供了机遇。与依赖反射光的RGB传感器不同，热成像摄像头测量发射的红外辐射，使其在低光照或强眩光环境中具有鲁棒性，即使在能见度差的条件下也能实现一致的物体检测和边界保持。此外，人体、动物和车辆等物体 distinct 的热辐射模式为RGB纹理模糊时的语义判别提供了强有力线索。热传感器还被被动运行且在各种户外条件下可靠，使其适用于大规模部署。因此，热成像通过提供光照不变且语义丰富的信息来补充RGB数据，增强不利光照条件下的场景理解。

基于此，研究人员提出DARTS（Distilling Auxiliary RGB–T features for Unsupervised Semantic Segmentation），旨在利用RGB和热成像模态的互补特性进行不利光照下的无监督分割。RGB图像提供丰富的视觉和纹理线索但对光照变化高度敏感，而热成像提供在弱光、眩光或夜间条件下保持稳定的光照不变表征，但缺乏精细语义细节。受自监督ViT在RGB和热成像域均能学习适合聚类的语义相关特征这一观察的启发，研究人员开发了基于对比学习的联合框架，从两种模态中蒸馏信息，克服失真RGB图像中语义线索的退化，同时有效利用互补热特征。尽管存在RGB编码颜色和纹理、热成像捕获热分布的内在模态差距，研究人员采用共享预训练ViT骨干从两种模态提取特征图，将其视为独立但可聚类的特征空间，在每个模态内形成语义一致的聚类同时保持跨模态对应性。

研究人员提出的多模态特征融合模块将共享编码器生成的RGB和热成像特征图整合为统一表征，捕获两种模态的互补线索。该模块采用单个双模态ViT块，结合自注意力保持模态内一致性和交叉注意力促进跨模态信息交换，随后通过线性融合机制组合输出，生成紧凑且语义丰富的联合表征。为弥合模态差距，研究人员设计对比特征相关性损失，在模态内和跨模态均起作用：模态内损失强制每个模态内特征的一致性，跨模态损失在特征层面配准语义相关的RGB和热成像表征。这一双重目标引导网络从高维、模态特定的特征嵌入（E）学习到低维分割空间K的鲁棒映射（K?E），从而有效将RGB–热成像表征蒸馏为适合无监督语义分割的判别性、光照不变特征。

据研究人员所知，这是首次针对不利光照条件下拍摄的图像探索USS，并引入RGB–T模态进行多模态USS。该框架设计为模块化，可无缝集成到现有基于DINO的USS方法中。研究人员在四个具有多样光照条件的RGB–T语义分割数据集上进行了大量实验，DARTS相比其单模态模型实现了显著性能提升； notably，在KP、MFNET、PST900和SemanticRT上分别超越基线STEGO模型2.36%、2.22%、4.87%和0.67%的mIoU，其他USS方法也获得了类似改进。

具体而言，研究人员的贡献包括：引入新颖的多模态USS框架，整合RGB和热成像数据，通过从DINO蒸馏特征来解决当前USS模型在挑战性光照条件下的局限性；利用多模态特征融合块结合辅助热特征补充 deficient RGB特征，包含通过自注意力和交叉注意力处理多模态特征的共享ViT，并通过线性融合机制和分割头确保有效的多模态表征学习和分割；针对DINO生成的RGB和热成像图像的可聚类特征中存在固有特征不对齐问题，将其视为具有各自模态内可聚类特性的不同特征空间，采用基于对比的特征相关性损失并引入跨模态特征相关性损失以捕获模态内和跨模态关系，有效蒸馏RGB–T特征以增强分割表征；提出可融入现有基于DINO的USS方法的通用框架；通过四个多样光照条件下的RGB–T语义分割数据集的大量实验证明DARTS框架相较单模态对应方法的性能提升。

在方法层面，输入数据包含RGB和热成像两种模态，分别记为x_rgb∈R^{H′×W′×C′}和x_thr∈R^H′×W′，最终目标是利用两种输入模态的辅助信息进行无监督语义分割。整体架构为：模态x_rgb和x_thr通过共享预训练骨干生成RGB特征张量f_rgb∈R^HW×E和热成像特征张量t_thr∈R^HW×E。

实验部分，研究人员在三个公开RGB–T分割数据集上将DARTS与SOTA单模态无监督语义分割方法进行了广泛比较。在MFNET数据集上，DARTS在unsupervised mIoU、Acc、linear mIoU和linear Acc上分别超越RGB训练的基线STEGO 2.22%、2.44%、2.05%和1.58%，DARTS与SmooSeg和EAGLE的结合也取得类似提升。消融研究中，研究人员在KP数据集上验证了不同设计组件的影响，对融合模块的验证通过与多种多模态融合技术的比较完成，包括RGB和热成像特征图拼接、线性融合、交叉注意力、TokenFusion、Linear TokenFusion，以及现有监督RGB–T分割中的SCRNet、RTFNet和CMX等融合机制。

结论部分，研究人员总结DARTS是一种新颖的无监督多模态分割框架，旨在解决RGB图像在不利光照条件下的局限性。DARTS整合RGB和热成像模态的互补信息以增强语义理解，无需人工标注。该框架利用DINO骨干从RGB和热成像图像中蒸馏语义一致的特征，并采用多模态特征融合模块进行整合，实验证明其在多数据集上的有效性和通用性。

联系信箱：

粤ICP备09063491号

热点排行