极坐标鸟瞰图(Polar BEV)上的旋转等变特征学习用于稳健的激光雷达地点识别

《Applied Sciences》:Rotation-Equivariant Feature Learning on Polar BEV for Robust LiDAR Place Recognition

【字体: 时间:2026年06月19日 来源:Applied Sciences 2.5

编辑推荐:

  基于激光雷达的地点识别对于全球导航卫星系统(GNSS)拒止环境下的长期自主导航至关重要,然而现有方法在面临显著偏航旋转时难以兼顾精度与效率。本研究提出了一种基于多通道极坐标鸟瞰图(Polar BEV)表征的稳健框架。在偏航主导的重访问场景下,极坐标BEV图像将

  
基于激光雷达的地点识别对于全球导航卫星系统(GNSS)拒止环境下的长期自主导航至关重要,然而现有方法在面临显著偏航旋转时难以兼顾精度与效率。本研究提出了一种基于多通道极坐标鸟瞰图(Polar BEV)表征的稳健框架。在偏航主导的重访问场景下,极坐标BEV图像将偏航旋转转化为列方向的循环移位,为旋转等变特征提取提供了有效的结构先验。原始点云被投影至极坐标BEV网格,编码密度、高度与强度信息。旋转等变特征提取器由径向压缩模块(Radial Compression Module)和旋转等变Transformer模块(Rotation-Equivariant Transformer Module)组成,通过条件位置编码(Conditional Positional Encoding, CPE)与循环相对位置偏置(Circular Relative-Position Bias, CRPB)捕获长程方位角依赖关系。等变特征经NetVLAD聚合为紧凑的全局描述子,并以困难样本挖掘三元组损失进行端到端训练。在公开数据集KITTI与NCLT,以及研究人员自行构建的激光雷达地点识别重访问(LiDAR Place Recognition Revisit, LPRR)数据集上的大量实验表明,该方法在KITTI上具有竞争力,在NCLT和LPRR上表现优于对比方法。所提框架在性能与计算成本间取得了良好平衡,并在NCLT和LPRR数据集上展现出有前景的跨数据集泛化能力,无需微调。
本研究旨在解决激光雷达地点识别在面临大规模偏航旋转时的稳健性不足问题。地点识别作为自动驾驶车辆自主导航模块中的关键技术,能够为无人地面车辆(Unmanned Ground Vehicles, UGVs)提供可靠的回环检测线索,从而有效抑制定位漂移,实现全球导航卫星系统(Global Navigation Satellite System, GNSS)拒止环境(如森林、山区、地下隧道)中的长期稳定运行,是全局定位的基础。然而,实际部署中,对大规模偏航旋转的稳健性——如十字路口和倒车重访场景——仍然特别关键但研究不足,因为它直接决定了在显著视角变化下能否建立回环闭合。

现有方法主要通过数据增强或设计旋转不变网络架构来应对旋转稳健性挑战,但仍面临精度与计算效率难以平衡、极端视角下判别性退化、泛化能力有限等问题,阻碍了其在资源受限自动驾驶平台上的部署。为此,研究人员提出了一种轻量级激光雷达地点识别框架,通过多通道极坐标BEV表征提升对大规模偏航旋转的稳健性。

研究人员的技术路线包含三个主要阶段:预处理阶段,将原始点云裁剪并栅格化生成编码强度、高度和密度信息的三通道极坐标BEV图像;地点建模阶段,首先采用径向压缩模块(Radial Compression Module, RCM)推导紧凑的方位角特征序列,随后装备有条件位置编码(Conditional Positional Encoding, CPE)的旋转等变Transformer模块(Rotation-Equivariant Transformer Module, RETM)处理这些序列以动态注入旋转等变位置信息并建模长程上下文依赖,编码后的特征再通过NetVLAD聚合为全局表征,经全连接层投影至低维向量并进行L2归一化得到最终全局描述子;地点匹配阶段,查询全局描述子通过近似最近邻搜索在预构建的描述子地图中进行检索以获取回环候选。该方法的创新性不在于单独使用极坐标网格、Transformer编码器或NetVLAD聚合,而在于将多通道极坐标BEV表征与专为偏航旋转引起的循环移位结构设计的旋转等变特征编码器相结合。

研究人员开展了系统性实验验证。在数据集方面,使用公开数据集KITTI和NCLT,以及基于CARLA仿真平台自建的激光雷达地点识别重访问(LiDAR Place Recognition Revisit, LPRR)数据集。KITTI数据集采用里程计基准序列,序列03至10用于网络训练,序列02用于验证,序列00用于测试;NCLT数据集选取2012-01-08序列构建数据库、2012-02-05序列作为查询集,以评估跨会话稳健性;LPRR数据集专门用于评估大规模偏航旋转下的算法性能,包含铺设道路和土路两种场景下的往返遍历数据。

实验结果显示,在KITTI数据集上,所提方法Recall@1达到0.966、Recall@25达到0.995,略低于BEVPlace++和OverlapTransformer但仍具竞争力;在NCLT数据集上,无需微调即可实现Recall@1为0.923、Recall@25为0.949,优于所有对比方法;在LPRR数据集上,Recall@1为0.599、Recall@25为0.970,显著优于BEVPlace++(Recall@1为0.520)、HOTFormerLoc和Scan Context等方法,表明该方法在跨数据集泛化和旋转稳健性方面具有优势。

消融研究方面,通过控制可视化实验验证了网络模块在受控偏航旋转下的特征行为:极坐标BEV输入在旋转下呈现循环列移位,RCM压缩径向信息同时保持方位角结构,CPE动态注入旋转等变位置编码,RETM进一步建模长程方位角依赖,最终GDG输出在所有旋转角度下保持视觉一致。定量消融实验在LPRR数据集上进行:DHI完整表征相较于单一属性变型(仅密度Recall@1为0.471、仅高度为0.425、仅强度为0.413),Recall@1提升至0.599;将RCM中轴向可分离卷积替换为标准卷积后,Recall@1从0.599降至0.543;移除CPE后Recall@1降至0.511;移除CRPB后Recall@1降至0.503;完全移除RETM后直接送入NetVLAD的Recall@1为0.550,验证了各模块的必要性。

运行时分析表明,所提方法具有8.22M参数、模型大小31.35MB、计算量2.10 GFLOPs,单帧延迟25.44ms、帧率39.30 FPS,在学习型方法中计算成本最低。其中极坐标BEV生成耗时21.52ms占主要部分,神经网络前向传播(RCM 1.93ms、RETM 1.58ms、GDG 0.37ms)和数据库匹配(0.05ms)均十分高效,满足10-20Hz车载激光雷达的实时性需求。

讨论部分,研究人员指出该方法将偏航旋转转化为循环移位的结构先验在理想纯偏航变换下严格成立,实际重访中的横向平移、视角依赖遮挡、动态物体、非平面地形及可见场景内容变化可能违反该假设,因此该表征应被理解为提升旋转稳健性的结构先验而非保证所有现实场景中的完美旋转不变性。LPRR数据集上整体Recall@1低于KITTI和NCLT,主要因为反向重访问引入显著可见几何内容变化,且模拟越野环境中的重复植被和地形结构导致感知混叠,这表明仅靠旋转稳健性不足以同时应对视角变化和感知歧义,而DHI编码和环形一致特征建模有助于缓解这些挑战。

研究结论部分翻译如下:本研究提出了一种稳健高效的激光雷达地点识别框架,在大规模偏航旋转下实现强性能的同时保持计算效率。通过将原始点云投影到具有密度、高度和强度通道的极坐标BEV网格,并设计由径向压缩模块和旋转等变Transformer模块组成的旋转等变特征编码器,该方法通过NetVLAD结合困难样本挖掘三元组损失产生对大规模偏航旋转具有强稳健性的紧凑全局描述子。在KITTI、NCLT和LPRR数据集上的大量实验表明,该方法在评估数据集和指标上达到竞争性或更优性能,仅以8.22M参数和25.44ms每帧的代价实现优异召回率。消融研究确认了所提模块的必要性,NCLT和LPRR上的结果显示出有前景的跨数据集泛化能力。未来工作将放松地面平坦假设以处理具有显著俯仰和横滚扰动的非平面越野场景,在更多样真实数据集和部署场景中进一步验证泛化能力,并研究相机和惯性测量单元(IMU)等多模态传感器融合以及在线适应策略。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号