用于鸟瞰视角协同感知的时空自适应细化技术

《Neurocomputing》：Spatio-temporal adaptive refinement for bird’s eye view cooperative perception

【字体：大中小】 时间：2026年05月26日 来源：Neurocomputing 6.5

编辑推荐：

　　刘彪|杨佳琪|乔俊超北京交通大学电气工程学院，中国北京，100044摘要协作感知通过深度学习方法整合来自多个代理的信息，增强了自动驾驶车辆的感知能力。尽管最近的基于视觉的协作框架已经显示出有希望的结果，但在处理复杂的交通场景和通信不确定性方面仍存在重大挑战。为了解决这些挑战，我们

刘彪|杨佳琪|乔俊超

北京交通大学电气工程学院，中国北京，100044

摘要

协作感知通过深度学习方法整合来自多个代理的信息，增强了自动驾驶车辆的感知能力。尽管最近的基于视觉的协作框架已经显示出有希望的结果，但在处理复杂的交通场景和通信不确定性方面仍存在重大挑战。为了解决这些挑战，我们提出了STARCO，这是一个基于学习的协作感知框架，它通过集成的时空处理来增强视觉特征。我们的框架提供了三个关键贡献：1）一种自适应的时间聚合机制，能够有效地将历史上下文与BEV特定的几何约束相结合；2）一种分层特征增强架构，在视图转换过程中保留了细粒度的空间细节；3）一个关系感知的融合模块，能够有效解决多代理场景中的特征歧义。在OPV2V、V2V4Real和nuScenes数据集上的广泛实验表明，STARCO在协作BEV语义分割和3D对象检测方面取得了最先进的技术成果。此外，STARCO在具有挑战性的条件和通信退化水平下表现出强大的性能。

引言

环境能力对于实现安全可靠的自动驾驶至关重要。对道路拓扑、交通状况和周围场景语义的精确理解是自动驾驶车辆下游任务成功的基础[1]。鸟瞰图（BEV）表示方法将多视图信息投影到一个统一的俯视平面上，有效地保留了道路元素的空间和时间信息，为自动驾驶中的场景理解和路径规划提供了重要支持[2]。

近年来，研究人员为提高单车辆的BEV感知能力做出了重大努力。一些方法通过预测深度信息来学习相机视图与BEV空间之间的对应关系[3]，[4]。其他工作尝试直接建模从图像到BEV的映射，例如使用Transformer或MLP来学习隐式或显式的转换[5]，[6]。尽管这些方法取得了显著进展，但单车辆感知系统仍然面临遮挡和视野有限等固有限制[7]。为了克服单车辆感知的瓶颈，基于车辆网络技术的协作感知解决方案应运而生。通过多车辆之间共享感知信息，协作感知可以有效地扩展感知范围并减轻遮挡问题[8]。然而，如何在确保感知准确性的同时高效融合多源异构BEV特征并减少通信开销[9]仍然是协作BEV感知中的一个关键挑战[10]，[11]。此外，考虑到真实道路环境的复杂性，协作感知系统需要具有鲁棒性和灵活性，以适应不同场景和通信条件的变化[12]。目前关于协作感知的研究主要集中在基于LiDAR的方法上[13]，[14]，[15]。虽然LiDAR传感器可以提供准确的3D几何信息，但它们的固有限制（如高成本、有限的检测范围和稀疏的点云表示）限制了它们在自动驾驶中的大规模应用[16]。相比之下，视觉传感器由于其低成本、易于集成和丰富的语义信息，为协作感知提供了更有前景的解决方案[17]，[18]。

然而，在实现基于视觉的协作感知方面仍存在几个挑战。首先，现有方法总是关注单帧特征，而忽略了有价值的时间线索，导致对动态场景的理解不足。其次，2D图像的低分辨率限制了视图转换过程中空间细节的保留。第三，当前的融合方法[19]在多代理场景中难以保持特征的唯一性，导致车辆密集分布时出现特征歧义。

基于这些观察，我们提出了STARCO，这是一个新颖的协作感知框架，它通过统一的端到端架构中的有效时空处理来解决这些挑战（图1）。为了解决时间信息不足的问题，我们设计了一种自适应的细化机制，将历史上下文融入当前帧的特征中。为了克服空间细节丢失和特征歧义问题，我们开发了一种分层转换架构和一种关系感知的融合策略。广泛的实验表明，我们的方法在基于视觉的协作感知方面显著推进了最先进的技术。我们的贡献可以总结如下：

•
我们提出了STARCO（Spatio-Temporal Aadaptive Refinement for Bird’s Eye View Cooperative Perception），这是一种针对车辆到车辆（V2V）场景的新型端到端基于相机的协作感知框架，它独特地整合了所有参与代理的时间信息来细化特征表示。
•
我们设计了一种分层特征处理流程和一种精细的融合机制，以解决基于视觉的协作感知中的两个关键限制：视图转换过程中的特征退化和多代理融合场景中的特征歧义。
•
在OPV2V、V2V4Real和nuScenes数据集上的广泛实验表明，STARCO取得了最先进的性能，显著超越了之前的方法。此外，我们的方法在包括密集交通和通信退化条件在内的具有挑战性的场景中表现出强大的鲁棒性。

章节片段

方法

图1展示了我们提出的框架的总体架构。它由三个连续的部分组成，我们将在本节中详细描述。

数据集

OPV2V。我们在OPV2V数据集[27]上评估了STARCO，该数据集是在CARLA [28]中使用OpenCDA [29]收集的大规模V2V感知数据集。该数据集包含73个场景，每个场景有2-7辆车，每辆车都配备了一个LiDAR传感器和4个摄像头，覆盖了

' role="presentation">

的视野。我们仅使用摄像头数据进行评估，训练/验证/测试分别使用了6764/1981/2719帧。根据[27]，我们在固定ego车辆周围评估了一个100m

' role="presentation">

100m的区域，分辨率为39cm。

V2V4Real。 V2V4Real数据集[30]是

结论

在本文中，我们提出了STARCO，这是一个基于视觉的协作BEV感知的统一框架。该框架有效地利用了历史上下文信息来增强当前时间戳的数据，并在协作感知BEV地图生成的关键阶段实现了精细的特征处理。在数据集上的广泛实验表明，这种方法可以有效地提高BEV分割的精度，特别是在动态对象分割任务中，

CRediT作者贡献声明

刘彪：撰写 – 审稿与编辑，方法论。杨佳琪：撰写 – 审稿与编辑，原始草稿，概念化。乔俊超：撰写 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作得到了中央高校基本研究基金（编号2025YJS081）的支持

刘彪于2008年在中国北京交通大学获得电气工程博士学位。他目前是中国北京交通大学电气工程学院的副教授。他的研究兴趣包括电气控制自动化和智能车辆控制。

摘要

引言

章节片段

相关工作

方法

数据集

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行