广义对抗特征聚合与KAN增强网络在半监督可见光-红外人重识别中的应用

《Image and Vision Computing》:Generalized adversarial feature aggregation and KAN-enhanced network for semi-supervised visible–infrared person re-identification

【字体: 时间:2026年04月24日 来源:Image and Vision Computing 4.2

编辑推荐:

  半监督可见-红外重识别框架GAF-KAN提出分层聚合与对抗训练优化跨模态特征对齐,并采用可学习样条基分类器增强非线性决策边界,实验验证其优于现有方法。

  
孙睿|沈继成|龙毅|黄国曦|吴静晶
合肥工业大学计算机科学与信息工程学院,中国合肥丹霞路485号,230009

摘要

可见光-红外人体重识别是一项关键技术,在构建智能安全系统中发挥着关键作用。虽然半监督的可见光-红外人体重识别(SSVI-ReID)方法消除了对昂贵的红外数据标注的需求,但现有方法在特征融合对齐和跨模态特征分类方面存在局限性,这阻碍了对内在跨模态关联的全面探索。为了解决这个问题,我们提出了一种基于Kolmogorov–Arnold网络增强的通用对抗特征聚合(GAF-KAN)框架。我们首先提出了通用对抗特征聚合模块(GAFA),它在多层特征融合的基础上加入了对抗训练机制。随后,我们开发了一种基于样条的混合KAN分类器(KAC),以替代传统的线性分类器,并在深度神经网络中嵌入了一个自适应变换层。具体来说,特征聚合模块对浅层特征使用平均池化,对深层特征使用广义均值(GeM)池化,特征连接和对抗训练增强了区分能力。这种混合分类器利用可微分的样条基函数来建模复杂的决策边界,从而实现了更精确的分类。广泛的实验结果表明,我们提出的GAF-KAN架构在SSVI-ReID基准测试中表现出优于大多数现有方法的性能。

引言

人体重识别(ReID)[1]、[2]、[3]、[4]是智能监控中的关键技术,可以实现跨摄像头的目标跟踪。虽然可见光ReID在白天表现优异,但由于可见光传感器在低光环境下无法捕捉纹理特征,因此在夜间会失效。随着对全天候安全需求的增长以及红外摄像机的广泛使用,人们对可见光-红外ReID(VI-ReID)产生了兴趣。研究表明[5]、[6],直接应用单模态方法会导致性能显著下降,因为光谱和纹理存在差异,因此需要更先进的跨模态特征学习技术。
最近在VI-ReID方面取得了进展,主要通过跨模态特征对齐[7]、[8]和模态转换[9]、[10]。然而,这些监督方法严重依赖于大规模标注的跨模态对。由于红外图像缺乏颜色且视觉可解释性低,对其进行标注的成本特别高,这促使了半监督VI-ReID(SSVI-ReID)的发展。这种范式旨在使用有限的可见光标签和大量的未标记红外数据来实现跨模态匹配。
此外,当前的半监督可见光-红外人体重识别方法主要集中在生成更可靠的红外伪标签上。例如,[11]通过中间模态传递知识来提高伪标签的质量,而[12]使用高斯混合模型根据置信度自适应选择伪标签。然而,这些方法缺乏将浅层细节特征(如纹理)与深层语义特征(如身份线索)结合的结构化机制,限制了它们学习具有区分能力的跨模态表示的能力,从而导致对齐和泛化效果不佳。此外,大多数现有方法依赖于传统的线性分类器,这些分类器难以捕捉跨模态特征空间中固有的复杂非线性决策边界。在半监督环境下,这种局限性尤为明显,因为对齐不足和非线性可分性问题进一步限制了模型的能力和分类性能。
在本文中,我们提出了一种名为基于KAN增强的通用对抗特征聚合(GAF-KAN)的半监督可见光-红外人体重识别框架[13]。我们采用了一种广泛使用的双流基线[14]进行特征提取,并基于这些特征进行标签转移[15]。为了系统地将浅层细节特征与深层语义信息相结合,我们设计了一个通用对抗特征聚合(GAFA)模块。在该模块中,浅层特征(第1-2层)通过平均池化处理以保留局部细节,而深层特征(第3-4层)则通过GeM池化[14]来捕捉全局上下文;然后将得到的多层次特征连接起来形成对抗训练空间。鉴于模态差异可能导致特征分布不一致,直接融合这些特征可能会引入噪声,我们加入了一个动态梯度反转机制。在这里,判别器生成对抗信号,迫使生成器学习模态不变的表示,有效防止了跨模态特征对齐过程中的模式崩溃。与DDAG[16]不同,后者采用模内部分注意力和跨模态图注意力,我们的GAFA模块采用分层池化策略(浅层特征使用AvgPool,深层特征使用GeM Pool)结合对抗训练,在多个层次上显式地对齐跨模态特征分布。与IDKL[17]不同,后者通过纯化和图对齐将模态特定的判别知识提炼为共享特征,GAFA通过动态梯度反转和多层次特征融合直接学习模态不变的表示,无需依赖复杂的提炼或纯化过程。这种设计使GAFA能够更直接、更高效地缓解模态差异,同时保留了判别性的身份线索。
此外,深层特征中存在的复杂非线性关系可能会限制传统分类器的判别能力;因此,我们在第3层之后嵌入了一个KAN线性变换层,通过可学习的样条基函数增强非线性特征映射。另外,我们提出了一种Kolmogorov–Arnold分类器(KAC)来替代传统的线性分类器。具体来说,KAC将全连接层重构为一个连续的样条函数网络,通过基函数激活(SiLU)和B样条扩展实现输入空间的细粒度划分,系数通过最小二乘法动态优化。这种渐进式的特征增强机制在浅层建立了稳健的跨模态关联,并在深层建模了复杂的决策边界,最终在半监督约束下确保了跨模态特征的一致性。
我们的主要贡献可以总结如下:
  • 1.
    我们设计了一个通用对抗特征聚合(GAFA)模块,引入了分层池化策略和对抗学习机制,以增强跨模态表示。这种方法解决了融合浅层细节特征和深层语义特征时缺乏系统协作的問題,并改善了跨模态特征分布的对齐。
  • 2.
    我们将Kolmogorov–Arnold网络引入ReID中,嵌入KAN线性层以增强特征的非线性,并提出了Kolmogorov–Arnold分类器(KAC)来替代传统的线性分类器。这使得基于样条的细粒度决策边界建模成为可能,克服了线性分类器在处理复杂跨模态非线性边界时的固有局限性,从而实现了更精确的特征空间划分和分类。
  • 3.
    广泛的实验证据表明,我们的方法在具有挑战性的数据集上表现优于现有方法,从而成功解决了现有方法在特征融合对齐和跨模态特征分类方面的关键局限性。

部分摘录

监督下的可见光-红外人体重识别

监督下的可见光-红外人体重识别(SVI-ReID)通过建立缺乏颜色的红外图像和富含纹理的可见光图像之间的准确身份匹配来解决跨模态检索问题。当前的方法[6]、[17]、[18]、[19]、[20]、[21]专注于设计深度神经网络来学习具有判别能力的、模态不变的特征。例如,[22]提出了一种跨模态多粒度Transformer来学习从粗粒度到细粒度的特征表示

概述

所提出的基于Kolmogorov–Arnold网络增强的通用对抗特征聚合(GAF-KAN)框架如图1所示。该框架包括一个双流ResNet-50基线网络(AGW)、最优传输标签分配(OTLA)模块、通用对抗特征聚合(GAFA)模块和Kolmogorov–Arnold分类器(KAC)。在基线网络中,我们通过可见光和红外分支提取多粒度特征,随后OTLA

数据集和评估协议

数据集。SYSU-MM01数据集[52]包含395个身份,其中包括22,258张可见光训练图像和11,909张红外训练图像,涵盖了室内和室外场景。测试集包含96个身份,有3803张红外查询图像和301张可见光库图像。我们使用全搜索和室内搜索模式对该数据集进行性能评估。RegDB数据集[53]包含412个身份,每个身份有10张可见光图像和10张红外图像

结论

本文介绍了一种新的半监督可见光-红外人体重识别框架GAF-KAN,旨在解决跨模态特征对齐的核心挑战。我们开发了一个通用对抗特征聚合(GAFA)模块,通过多层次特征融合策略和动态对抗训练机制有效弥合了可见光和红外模态之间的语义差距。此外,我们还提出了KAN增强结构

CRediT作者贡献声明

孙睿:撰写——审稿与编辑、方法论、资金获取、形式分析。沈继成:撰写——审稿与编辑、原始草稿撰写、可视化、验证、软件。龙毅:撰写——审稿与编辑、形式分析。黄国曦:撰写——审稿与编辑、调查。吴静晶:撰写——审稿与编辑、监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了国家自然科学基金(项目编号:62302142和62476077)的支持;部分得到了中国博士后科学基金(项目编号:2022M720981)的支持;部分得到了安徽省自然科学基金(项目编号:2208085MF158)的支持;以及中央高校基本科研业务费(项目编号:PA2025GDSK0079)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号