CSFG-Net：跨尺度特征引导的人脸重识别网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：CSFG-Net: Cross-scale feature guided person re-identification network

【字体：大中小】 时间：2026年04月16日 来源：Image and Vision Computing 4.2

编辑推荐：

　　针对行人重识别中跨尺度特征交互不足的问题，本文提出Cross-Scale Feature Guidance Network（CSFG-Net），通过跨尺度特征引导模块和双坐标注意力机制增强全局与局部特征的协同，并在多个数据集上验证其有效性。

韩凯|金龙|严俊寿|顾波|朱明明

华北水利水电大学信息工程学院，中国郑州，450046

摘要

人物重识别（Re-ID）是智能安全和智慧城市中的关键任务，但在复杂的场景中面临重大挑战，如姿态变化、遮挡和光照差异。尽管多分支和多尺度架构在某种程度上提高了特征的可区分性，但全局特征和局部特征的协同建模以及跨尺度交互仍然不足。为了解决这些限制，提出了一种跨尺度特征引导网络（CSFG-Net）。开发了一个跨尺度特征引导模块，以桥接多尺度特征，促进高效的交互和信息互补。同时，引入了双坐标注意力（DCA）机制，以增强对方向敏感的特征和显著区域的表示，同时保持计算效率，从而在全局语义一致性和局部细粒度可区分性之间实现了更好的平衡。在Market-1501、DukeMTMC-ReID和CUHK03数据集上进行的实验表明，所提出的方法在识别准确性和鲁棒性方面都取得了有竞争力的性能。

引言

人物重识别（Re-ID）[1]、[2]、[3]是一项基本任务，旨在准确匹配不同相机捕获的同一人物的图像序列。随着监控系统的快速部署，视频监控已成为公共安全管理和犯罪预防的重要工具，Re-ID已广泛应用于智能安全和视频分析领域。深度学习的发展进一步加速了Re-ID的进步，带来了显著的性能提升。然而，在现实世界场景中，与相机相关的因素常常导致行人图像出现遮挡、外观相似性和背景变化等问题。这些挑战导致传统方法的信息不完整和特征可区分性有限。如图1所示，为了解决这些问题，需要开发具有更强识别能力的人物重识别模型。

为此，在过去十年中进行了大量研究。结合局部身体线索或姿态信息[4]、[5]的方法已被证明可以减轻遮挡和其他变化的影响，通过加强细粒度特征的学习来提高识别准确性。然而，仅依赖单一局部特征可能会导致全局上下文的丢失，从而限制了整体的表示能力。相比之下，多分支和多尺度策略可以同时捕获来自不同区域和层次的特征，利用它们的互补关系来提高判别性能。Herzog等人[6]提出了LightMBN，这是一种轻量级的多分支网络，通过联合建模全局、部分和通道分支来整合多尺度特征。基于OSNet的参数共享策略，LightMBN大幅降低了模型复杂性，并且仅使用9M参数即可实现高效的跨相机匹配。Chen等人[7]提出了ABD-Net，这是一种基于注意力的多分支网络，通过通道注意力和位置注意力模块分别捕获语义关系和空间线索，实现显著特征的分层建模。Wang等人[8]提出了MFFNet，这是一种多分支特征融合网络，将Swin Transformer与多尺度特征融合模块相结合。该网络结合了全局分支、混合注意力局部分支和显著性引导分支，以提高对尺度变化和遮挡的适应性。Ren等人[9]提出了INMM，这是一种结合多分支特征融合与多尺度特征学习的人物重识别模型。通过使用实例归一化模块和两阶段特征融合模块，该方法增强了全局特征和局部特征的互补性。此外，还使用了注意力机制来动态调整特征权重，从而提高整体判别能力。总之，多尺度和多分支特征学习显著提高了行人重识别的鲁棒性和准确性。然而，现有方法在建模特征尺度之间的交互方面仍然存在局限性，特征之间的协同关系尚未得到充分利用。这些限制限制了多尺度特征的互补潜力，仍有很大的空间可以提高模型性能。因此，设计更高效的跨尺度特征引导机制已成为一个关键挑战。

受上述挑战的启发，本文提出了一种用于行人重识别的跨尺度特征引导网络（CSFG-Net），旨在通过充分利用特征尺度之间的互补关系来增强表示能力。采用跨尺度引导机制来平衡全局特征和局部特征，从而在复杂场景中提高鲁棒性。具体来说，中间级特征被用作高级特征和低级特征之间的中介，促进跨尺度的协同学习。这种设计使得全局语义一致性和局部细粒度可区分性之间能够实现更有效的权衡。

总结来说，本文的主要贡献如下：

我们提出了一种跨尺度特征引导的行人重识别网络（CSFG-Net）。开发了一种跨尺度特征引导（CSFG）机制。与传统的简单融合方法不同，CSFG利用中间特征作为“信息枢纽”。通过采用通道分割技术，它通过独特的反馈循环双向引导浅层细节增强和深层语义校准，有效地弥合了多个尺度之间的语义差距。
开发了双坐标注意力（DCA）模块。与传统仅通过平均池化捕获空间线索的CA不同，DCA集成了最大池化分支，同时提取全局和局部显著特征，显著增强了模型对关键行人部分的响应。
在Market-1501、DukeMTMC-ReID和CUHK03数据集上的广泛实验表明，CSFG-Net在识别准确性和鲁棒性方面与现有方法相比取得了有竞争力的性能，验证了其有效性和实际应用性。

部分摘录

多尺度和多分支特征学习

多分支和多尺度特征学习方法通常构建多分支网络来提取不同尺度的特征，从而提高模型区分行人外观特征的能力并增强其鲁棒性。代表性的工作包括Zhang等人[10]提出的多层次多尺度水平池化网络（MMHPN）和Wang等人[11]提出的基于多分支的注意力融合框架，这些工作增强了多粒度特征表示

提出的方法

本节首先介绍整体网络架构和提出的双坐标注意力机制，然后描述跨尺度特征引导融合模块，最后解释所使用的损失函数。

实验细节和评估设置

实验使用PyTorch框架在配备单个NVIDIA GeForce RTX 4060 GPU的平台上实现。主干网络采用了预训练的ResNet-50模型，通过利用预训练权重加速收敛。在训练过程中，输入图像被调整为

256 \times 128

大小，并以0.5的概率添加随机擦除和水平翻转。批量大小设置为32，网络训练120个周期。学习率是动态调整的

结论

本文提出了一种创新的跨尺度特征引导融合网络（CSFG-Net），以解决现有方法在有效建模多尺度特征之间的交互方面的局限性。具体来说，引入了跨尺度特征引导模块，其中中间级特征作为桥梁，促进浅层特征和深层特征之间的高效协作和互补信息交换，从而实现增强的跨尺度表示。同时，为了

CRediT作者贡献声明

韩凯：撰写 – 审稿与编辑、验证、方法论、概念化。金龙：撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、方法论、概念化。严俊寿：验证、调查。顾波：监督、软件。朱明明：撰写 – 审稿与编辑、可视化。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言