ASNet:一种自适应的、场景感知型网络,用于RGB-热成像城市场景的语义分割

《Journal of Visual Communication and Image Representation》:ASNet: An adaptive scene-aware network for RGB-thermal urban scene semantic segmentation

【字体: 时间:2026年04月27日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  语义分割中的RGB-热成像融合方法,提出自适应场景感知模块动态调整RGB置信度,结合浅层和深层多模态融合模块及多级融合解码器,显著提升低光环境下的准确率和鲁棒性,在MFNet和PST900数据集上表现优异。

  
郭一鑫|陈振学|荣学文|刘成云|宋莉莉|李一迪
山东大学控制科学与工程学院,济南,250061,中国

摘要

语义分割是数字图像处理中的关键任务。热成像为应对不良光照条件带来的挑战提供了一种有前景的解决方案。以往的RGB-热图像分割方法通常在编码器、解码器或特征层采用固定的融合方案,这些方案往往无法适应光照变化或模态可靠性的变化。在现有研究的基础上,我们提出了ASNet,这是一个用于RGB-热城市场景语义分割的编码器-解码器网络。我们引入了一个自适应场景感知模块,该模块可以估计模态可靠性,从而动态地加权RGB和热特征;同时采用了独立的浅层和深层融合模块以及多层次融合解码器。我们还采用了多标签监督(语义、二值、边界和置信度)来提高定位准确性和鲁棒性。在MFNet和PST900数据集上的评估表明,ASNet在mAcc和mIoU方面取得了优异的性能,并且在低光照场景下表现出更好的鲁棒性。代码和结果可在以下链接获取:https://github.com/GraceGuoo/ASNet

引言

语义分割是数字图像处理中的基本任务,它将图像分割成在像素级别上分类的不同语义区域。它在计算机视觉应用中起着关键作用,包括道路场景分割[1]、[2]、病理分析[3]、[4]和农业监测[5]。特别是在城市场景中,语义分割已被广泛应用于智能交通[6]、安全监控、行程规划[7]、自动驾驶[8]等领域。大多数现有的语义分割网络[9]、[10]主要使用RGB图像。
然而,由于RGB图像在昏暗光照条件下的信息量较少且预测效果较差,一些研究者使用深度[11]、[12]、[13]或热[14]、[15]地图作为补充信息。热图像可以有效减少歧义,尤其是在光照不足的场景中。因此,结合使用RGB图像和热图像可以提高语义分割的性能[16]、[17]。然而,现有的RGB-T模型在面对复杂环境(如杂乱背景或变化的光照条件)时性能会显著下降。因此,现有的RGB-T方法仍面临重大挑战。RGB-T技术需要解决的两个技术问题包括:(1)如何充分利用多模态和多层次特征;(2)如何有效整合跨模态RGB-T数据的互补性。
图像特征通常被定义为浅层特征或深层特征。浅层特征是低级特征,如颜色和纹理信息,具有局部性和不确定性。相比之下,深层特征是高级特征,能够提供具有全局性和稳定性的判别性语义信息。提取深层特征需要更多的时间、数据和计算资源[6]。许多现有网络采用统一模块来处理多模态和多尺度信息[18]、[19]。虽然这些方法简化了设计并实现了跨多个尺度的特征同时提取,但它们经常忽略了不同模态和特征层次之间的固有差异。
此外,在不同的光照条件下,RGB和热模态的可靠性并不恒定。热图像在低光照场景中通常更具有鲁棒性,而RGB图像在充足光照下提供更丰富的视觉细节。然而,许多现有的RGB-T语义分割方法采用固定或等权重的融合策略[20]、[21],没有明确考虑场景依赖的模态可靠性。因此,它们可能无法充分利用两种模态在不同场景下的互补优势。这些观察结果表明,自适应模态可靠性建模和跨模态融合密切相关。以往的方法往往只强调其中一个方面,这可能会限制其在多样化光照条件下的有效性。
为了解决这些挑战,我们提出了一个编码器-解码器特征融合网络,称为ASNet。在ASNet中,我们对不同层次的特征采用不同的处理方法,以最大化提取低级特征并明确高级特征的语义信息。为了考虑不同光照条件下RGB线索的可靠性变化,我们引入了一个自适应场景感知模块,该模块可以动态估计RGB置信度并在具有挑战性的场景中抑制不可靠的RGB信息。此外,我们还开发了一个多层次特征融合解码器和多标签监督方案,以增强跨层次特征聚合和分割质量。与最近的RGB-T融合网络相比,ASNet将场景感知的可靠性调制与分层解耦的融合相结合。这种设计使得在城市场景理解方面更加鲁棒,特别是在低光照环境下。
我们的主要贡献如下:
  • 为了在不同条件下实现自适应模态可靠性,我们提出了一个自适应场景感知模块,该模块可以动态估计RGB置信度。
  • 为了克服统一融合策略的局限性,我们设计了用于低级空间细节和高级语义表示的浅层和深层多模态融合模块(SMFF和DMFF)。
  • 为了进一步提高跨层次特征聚合和预测质量,我们开发了一个多层次特征融合解码器和多标签监督方案。
  • 在标准的RGB-T语义分割基准测试上的广泛实验验证了ASNet的有效性和鲁棒性。如图1所示,ASNet在MFNet测试集上取得了良好的mAcc和mIoU平衡。

相关工作

相关研究

近年来,语义分割领域取得了显著进展,特别是在RGB和RGB-热(RGB-T)方法方面。

概述

ASNet旨在解决RGB-热分割中存在的两个关键问题:(1)不同的特征层次需要不同的融合策略;(2)模态可靠性在不同光照条件下变化显著。
如图2所示,我们提出了一个用于城市场景语义分割的对称编码器-解码器结构。两个并行的模态分支(RGB分支和热分支)基于共享的ResNet-152[38]编码器构建。顶层特征

实验

我们展示了ASNet的实验评估结果。为了保证透明度,我们报告了数据集设置、评估指标、实现细节、与现有方法的比较以及消融研究。

结论

本研究提出了ASNet,这是一个用于RGB-热语义分割的网络,它解决了两个长期存在的挑战:不一致的模态可靠性和次优的多层次融合。为此,我们引入了一个自适应场景感知模块,该模块根据场景条件调整RGB置信度;同时设计了SMFF和DMFF模块,分别优化浅层和深层融合。在两个广泛使用的RGB-T数据集上的实验表明,ASNet在mAcc和mIoU方面取得了良好的平衡

CRediT作者贡献声明

郭一鑫:撰写——原始草案、软件实现、方法论研究、形式化分析、概念化。陈振学:撰写——审阅与编辑、可视化、研究。荣学文:监督、软件实现。刘成云:撰写——原始草案、资源管理、数据整理。宋莉莉:撰写——审阅与编辑、可视化、监督。李一迪:撰写——审阅与编辑、数据整理。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作部分得到了国家科技重大项目“智能制造系统与机器人”(2025ZD1608102)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号