跨模态协同融合的多阶段特征对齐框架在可见光-红外行人重识别中的应用与性能突破

《Scientific Reports》:A multi-stage feature alignment framework with cross-modality collaborative fusion for visible-infrared person re-identification

【字体: 时间:2026年04月29日 来源:Scientific Reports 3.9

编辑推荐:

  为了解决可见光与红外模态间的语义鸿沟问题,提升跨模态行人重识别(VI-ReID)的性能,研究人员开展了“跨模态协同融合的多阶段特征对齐框架(MS-CF)”研究。该框架通过多阶段、多维度的模态差异优化,有效抑制了冗余信息,在SYSU-MM01和RegDB数据集上实现了识别精度的显著提升,尤其在SYSU-MM01的室内搜索设定下,Rank-1准确率提升5.75%,mAP提升3.97%。该成果为智能交通与监控系统中的全天候鲁棒身份识别提供了新思路。

  
在智能交通和安防监控领域,实现全天候、全时段的精准人员识别与追踪至关重要。然而,现实场景复杂多变,尤其是昼夜交替、光照条件剧烈变化时,传统的基于可见光(Visible)摄像头的识别系统往往会“失明”或性能骤降。这时,不依赖于可见光、依靠物体自身热辐射成像的红外(Infrared)摄像头便成为关键补充。由此,可见光-红外行人重识别(Visible-Infrared Person Re-identification, VI-ReID)技术应运而生,其目标是从不同模态(可见光与红外)的图像或视频中,匹配出同一个人,实现跨模态的身份关联。
尽管前景广阔,但VI-ReID面临的核心“拦路虎”是巨大的模态差异(Modality Gap)。可见光图像捕捉的是物体对可见光谱的反射,富含丰富的颜色、纹理等细节信息;而红外图像反映的是物体的热辐射强度,通常表现为灰度图,缺乏色彩和清晰的纹理。这种根本性的成像原理差异,导致同一个人的可见光图片和红外图片在像素级和浅层特征上看起来“天差地别”,给模型学习统一、判别性的身份特征带来了严峻挑战。现有的许多方法试图通过单阶段的特征对齐或映射来弥合这一鸿沟,但往往“力有未逮”,容易在处理复杂语义信息时发生偏移,导致细粒度身份信息的丢失。研究人员洞察到,特征的对齐与融合或许不应一蹴而就,而应像剥洋葱一样,分层递进,由粗到精。基于这一观察,一项旨在通过多阶段、协同式优化来攻克VI-ReID难题的研究得以开展,其成果为我们打开了一扇新的大门。
为了系统性解决上述问题,研究人员设计并提出了一个名为“多阶段特征对齐与跨模态协同融合(Multi-Stage Feature Alignment and Cross-Modality Collaborative Fusion, MS-CF)”的框架。该研究主要在两个权威的VI-ReID基准数据集——SYSU-MM01和RegDB上进行了验证。框架的核心围绕三个创新模块展开:首先是双路径跨层注意力(Dual-Path Cross-Layer Attention, DCA)模块,它通过交互不同网络层的特征,同时增强特征的语义表达和结构信息。其次是平衡特征归一化(Balanced Feature Normalization, BFN)模块,它在归一化过程中巧妙地引入模态约束和特征稀疏化,旨在拉近不同模态特征分布的同时,提升特征的判别力。最后是多阶段混合模态对齐(Multi-Stage Hybrid-Modality Alignment, MS-HMA)策略,这是框架的“调度中心”,它指导模型先分别在各自模态内进行初步的特征学习与对齐,然后再将两种模态的特征以混合(Hybrid)的方式协同训练,施加一致性约束,从而引导特征实现从粗糙到精细的语义收敛。
研究结果
  • 整体性能卓越:在SYSU-MM01和RegDB数据集上的大量实验表明,MS-CF框架全面超越了现有最先进(State-of-the-art)的方法。特别是在更具挑战性的SYSU-MM01数据集的室内搜索(indoor-search)设置下,MS-CF取得了突破性进展,Rank-1准确率提升了5.75%,均值平均精度(mAP)提升了3.97%,显著证明了其优越性。
  • DCA模块增强特征表达:通过消融实验验证,引入DCA模块能够有效融合浅层结构信息与深层语义信息,生成更具鉴别力的中间特征表示,为后续的模态对齐奠定了更好的基础。
  • BFN模块优化特征分布:BFN模块的引入被证明可以有效地改善跨模态特征分布的一致性,同时通过稀疏化抑制了特征中的冗余噪声,使得学习到的身份特征更加紧凑和判别。
  • MS-HMA策略实现精进对齐:实验结果分析显示,MS-HMA策略所采用的“先单模态后混合模态”的渐进式对齐方式至关重要。它避免了早期强行融合带来的语义混淆,允许模型先在各自模态内学习到稳健的身份特征,再通过协同约束实现精细的跨模态语义对齐,这是性能提升的关键。
结论与意义
本研究表明,采用多阶段、分层递进的策略来应对可见光-红外行人重识别中的模态差异问题是行之有效的。所提出的MS-CF框架通过DCA、BFN和MS-HMA三个模块的有机协作,系统性地实现了从特征增强、分布优化到渐进对齐的全流程优化。这不仅显著提升了在复杂场景下的行人重识别精度,更重要的是,其“由粗到细”的对齐理念为跨模态学习领域提供了新的方法论启示。该研究证实,通过模拟人类认知的渐进过程——先把握大致轮廓(模态内特征),再精细比对差异(跨模态协同)——人工智能模型能够更稳健地处理模态异构数据。这项成果有望直接推动智能监控、智慧城市、自动驾驶等需要全天候感知能力的系统向更可靠、更鲁棒的方向发展,具有重要的理论价值与广阔的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号