在资源受限的动态人群中，通过分层式遮挡感知推理实现自适应行人检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Adaptive pedestrian detection in resource-constrained dynamic crowds via hierarchical occlusion-aware reasoning

【字体：大中小】 时间：2026年04月29日 来源：Pattern Recognition 7.6

编辑推荐：

　　**中生唐|黄强|杨亮义|向静波|叶先峰** 中国吉利大学智能网络与新能源汽车学院，四川成都，641423 **摘要** 在资源受限的城市环境中部署视觉系统——从边缘监控网络到自主导航平台——需要具备可扩展的检测架构，这些架构能够在运行时适应异构人群密度和遮挡复杂性

　　**中生唐|黄强|杨亮义|向静波|叶先峰**
中国吉利大学智能网络与新能源汽车学院，四川成都，641423

**摘要**
在资源受限的城市环境中部署视觉系统——从边缘监控网络到自主导航平台——需要具备可扩展的检测架构，这些架构能够在运行时适应异构人群密度和遮挡复杂性。当前的深度学习流程存在三个关键限制：空间均匀的特征处理无法自适应地分配计算资源到被遮挡区域和可见区域；跨注意力机制在实例严重重叠时会出现表示纠缠；置信度校准方案与观测完整性约束脱节。我们提出了DecoupleNet，这是一个具有计算意识的框架，通过三个协同模块实现显式的遮挡推理。首先，方差引导的放大利用局部特征不连续性作为无注释的边界指示器，在层次聚合稀释空间信息之前保留来自被遮挡区域的区分性信号。其次，结构引导的解耦通过图卷积网络嵌入人体骨骼拓扑结构，同时构建IoU条件下的阻塞矩阵，切断重叠实例之间的受污染的注意力路径，减少计算冗余。第三，具有完整性意识的检测头通过可学习的软折扣将可见性回归与分类置信度相结合，使得在部分可观测性条件下能够进行稳健的非最大值抑制。模块化设计允许根据场景复杂性和计算资源选择性地激活组件，从而实现部署的扩展。在CityPersons、CrowdHuman和WiderPerson数据集上的基准测试表明，在不同人群密度下均取得了持续改进，达到了90.9%的mAP@0.5，同时保持了边缘设备的兼容性。

**引言**
在复杂环境中的行人检测旨在识别拥挤城市场景中的人类实例，支持自动驾驶、智能监控和城市安全系统等关键应用[1][2]。它为碰撞避免、人群分析和公共空间监控提供了基础。然而，行人检测仍然面临三个主要挑战：拥挤场景中的遮挡模式高度可变且依赖于上下文，使得训练期间的全面覆盖变得不可行；行人在不同场景中的外观和姿态存在显著差异，这增加了特征学习的复杂性；而在实际部署中，被严重遮挡的实例很常见，但在训练数据中却代表性不足，从而引入了对可见行人的系统偏见。因此，构建能够在多样化的人群条件下处理严重遮挡的鲁棒检测器仍然是一个核心挑战[3]。

**现有方法的局限性**
现有检测方法存在三个根本性限制[4][5]：首先，大多数架构对所有空间区域应用相同的特征提取操作，而不考虑遮挡的严重程度。传统的骨干网络在卷积或基于注意力的聚合过程中均匀处理可见区域和被遮挡区域，导致来自可见身体部分的区分性线索与来自被遮挡区域的无关信息混合。这种不考虑遮挡的处理降低了表示质量，使得后续细化模块难以恢复在早期特征提取中已经丢失的空间语义信息[6][7]。其次，现有的基于查询的检测器通常通过标准的跨注意力无差别地聚合特征。在拥挤场景中，当多个行人共享相似的空间区域时，实例查询可能会吸收来自邻近个体的混合特征，产生特征纠缠，其中一个人的特征会污染另一个人的特征[8][9]。这种纠缠会损害定位准确性和身份一致性，尤其是在边界框的交并比很高且查询同时关注多个区域时[10][11]。第三，标准的检测头生成的分类置信度分数仅反映了类别的确定性，但忽略了观测的完整性[12][13]。即使90%的身体被遮挡，行人仍可能因为剩余10%的可见证据而获得高分类置信度，导致非最大值抑制机制偏好于那些被严重遮挡但分数较高的邻居。这种不考虑可见性的评分机制妨碍了在不可避免的空间重叠情况下对竞争检测结果的正确排序[14][15]。

**问题分析**
为了更好地理解这些问题，我们研究了在拥挤场景中信息在整个检测流程中的退化过程[16][17]。当行人之间发生遮挡时，会出现三种连续的失败模式：首先，特征提取对可见区域和被遮挡区域应用空间均匀的聚合，将来自可见身体部分的区分性信号与来自被遮挡区域的噪声响应混合。其次，通过跨注意力的查询细化缺乏空间约束，允许实例查询合并来自重叠行人的特征，从而产生纠缠的表示。第三，分类头仅根据语义特征估计置信度，而不考虑可见范围，因此非最大值抑制可能会偏好于置信度人为较高的不完整检测结果，而不是空间上更完整的实例。

**解决方案**
有效的遮挡行人检测需要三种协调的能力：特征编码器应在空间降采样合并可见区域和被遮挡区域之前定位遮挡边界并保留区分性信息；查询细化应通过限制跨注意力到不重叠的空间区域来强制实例级别的特征隔离；分类模块应将空间完整性纳入置信度估计中，以便非最大值抑制可以根据语义确定性和观测完整性对检测结果进行排序。现有方法仍然不足，因为骨干网络对所有区域进行统一处理，没有显式的遮挡推理，跨注意力通常是全局的且不受实例边界的限制，检测头将置信度预测与可见区域估计分离。为了解决这些限制，我们提出了DecoupleNet（用于遮挡检测的解耦表示网络），该框架通过三个协同模块在连贯的分阶段流程中促进遮挡定位、实例解耦和完整性感知。

**步骤1：通过方差引导的放大实现遮挡感知的特征提取**
我们首先使用Swin Transformer骨干从输入图像中提取层次化的多尺度特征，并保留最深的特征图以捕获高级语义表示。为了在不需要手动遮挡注释的情况下定位遮挡，我们利用了遮挡边界的一个关键属性：可见部分和被遮挡部分相遇的区域往往表现出相对较高的局部特征方差。具体来说，我们计算每个位置的局部方差统计信息，并将其与原始特征图连接起来。然后，一个轻量级的投影网络处理连接后的表示，生成一个遮挡置信度图，其中每个空间位置都被赋予一个分数，表示其位于遮挡边界的可能性。基于此图，我们通过放大高置信度区域而不是抑制它们来重新加权特征图，从而使部分可见的行人在后续阶段获得增强的表示强调。这种方差引导的放大完全不需要注释，并在层次聚合不可逆地丢弃细粒度遮挡线索之前早期应用。

**步骤2：通过遮挡阻塞注意力实现结构引导的实例解耦**
为了防止在基于查询的细化过程中特征在重叠行人之间被污染，我们引入了两种互补机制来强制实例级别的表示独立性。首先，实例查询使用从人体骨骼拓扑结构派生的解剖学结构先验进行初始化。通过双线性变换嵌入骨骼关节邻接矩阵，查询从内置的人体结构知识开始细化，而不是随机初始化，这提供了稳定的语义锚点，并提高了对邻近实例干扰的抵抗力。其次，我们设计了一个遮挡阻塞注意力掩码，明确阻止查询关注与其他被严重遮挡且空间重叠的行人相关的特征区域。对于每一对候选实例，我们共同评估空间重叠和遮挡的严重程度，并在两者都表明特征纠缠风险高时将相应的注意力路径置零。这样，标准跨注意力被转换为实例感知的操作，允许每个查询主要从其自己的空间区域聚合证据，同时对来自重叠邻居的污染信号不敏感。结构引导的初始化和阻塞约束注意力的结合产生了更清晰的每个实例表示，即使在密集的人群中也能一致地捕获单个行人的特征。

**步骤3：通过可见性耦合的评分实现完整性感知的检测**
为了使置信度分数同时反映类别确定性和观测完整性，我们引入了一个专门的可见性估计分支，与标准的分类和框回归分支并行。该分支预测每个检测到的实例的可见身体面积与完整身体面积的比率，这一比率由拥挤行人数据集中可见框面积与完整身体框面积的比率得出。然后，我们通过软折扣机制将分类分数与估计的可见性比率相结合：完全可见的行人保留其原始分类分数以保持召回率，而被严重遮挡的行人则获得比例降低的分数，以更好地反映可用于检测的有限视觉证据。一个可学习的折扣标量初始化为零，允许检测器在早期训练期间像标准分类器一样工作，并随着可见性分支变得可靠逐渐融入可见性意识。这种软耦合使得非最大值抑制能够同时考虑语义证据和空间完整性，即使后者仅从一小块可见片段中获得高类别置信度，也能将完全可见的行人排在被严重遮挡的邻居之上。这三个模块共同形成了一个连贯的信息链：步骤1中的遮挡置信度图直接指导步骤2中的阻塞阈值，而步骤3中的可见性估计基于步骤2产生的清晰实例表示。这种设计支持端到端训练，共同优化这三个属性。

**结论**
- 方差引导的放大通过局部统计信息识别并增强被遮挡区域，无需手动注释，同时保持空间区分性。
- 结构引导的解耦通过骨骼先验和重叠阈值限制查询特征之间的交互，防止特征在重叠行人之间被污染。
- 可见性耦合的评分通过软折扣将完整性估计与检测置信度相结合，以实现稳健的拥挤场景推理。

**数据来源**
我们实验中使用的数据集在表1中进行了总结。

**评估指标**
遵循行人检测的标准协议，我们采用平均精度（mAP）作为主要评估指标。具体来说，我们报告mAP@0.5和mAP@0.5:0.95，前者衡量在IoU（交并比）为0.5时的检测性能，后者计算IoU阈值从0.5到0.95范围内的平均mAP，步长为0.05。更高的mAP值表示更好的性能。

**作者贡献声明**
中生唐：撰写——原始草稿、验证、方法论、概念化。
黄强：撰写——审阅与编辑、可视化、软件。
杨亮义：撰写——审阅与编辑、监督、调查。
向静波：撰写——审阅与编辑、验证、调查、形式分析、数据整理。
叶先峰：撰写——审阅与编辑、软件、调查、形式分析。

**数据可用性声明**
支持本研究发现的数据可以从相应基准数据集的原始来源公开获取。具体来说，实验使用了[37][38][39]数据集，这些数据集可以从各自的官方网站或仓库页面访问，具体取决于数据集提供者指定的数据访问条件和许可协议。本研究没有生成新的数据集。

**利益冲突声明**
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

**致谢**
本工作得到了四川省教育厅智能车辆协同感知与安全（卫星-道路-云集成）重点实验室的支持。

联系信箱：

粤ICP备09063491号

热点排行