《Sensors》:Robust 3D Multi-Object Tracking via 4D mmWave Radar-Camera Fusion and Disparity-Domain Depth Recovery
Yunfei Xie,
Xiaohui Li,
Dingheng Wang,
Zhuo Wang,
Shiliang Li,
Jia Wang and
Zhenping Sun
编辑推荐:
本文为解决自动驾驶在复杂环境下3D多目标追踪精度不足的问题,提出了一种创新的雷达-相机融合框架。该研究通过4D雷达点云噪声抑制与单目视觉度量深度恢复,实现了传感器优势互补,在自建数据集上取得了77.93%的整体MOTA,性能超越单模态基线11~31个百分点,为低成本、鲁棒的环境感知提供了有效方案。
在自动驾驶的感知系统中,准确、实时地识别和追踪周围动态物体是实现安全导航的核心。然而,当前主流的传感器方案各有短板:激光雷达(LiDAR)虽精度高,但在雨、雾、雪等恶劣天气下性能骤降,且成本昂贵,难以大规模部署;而单目相机成本低廉、语义信息丰富,却因透视投影存在固有的尺度模糊性,难以直接恢复物体的真实三维位置,尤其在远距离时定位易发生漂移。如何在保证成本效益的同时,实现全天候、高精度的3D感知与追踪,是自动驾驶技术迈向更广泛应用必须攻克的难题。
近期兴起的4D成像毫米波雷达为解决这一矛盾带来了新的希望。与传统3D雷达相比,4D雷达增加了垂直天线阵列,能够测量俯仰角,输出包含距离、方位角、俯仰角和多普勒速度的四维点云数据。它在恶劣天气下穿透能力强,且成本远低于激光雷达。但其点云相对稀疏,且垂直方向测量噪声严重,常产生大量杂散点和虚假回波。另一方面,以Depth Anything V2为代表的单目深度估计模型在跨场景泛化方面取得了显著进展,能恢复细致的相对深度结构,但无法提供度量(metric,即有物理尺度)深度。如果能把4D雷达提供的稀疏度量信息与单目视觉的语义表达能力结合起来,或许能取长补短,大幅提升复杂场景下的3D感知与追踪能力。
这正是《Sensors》期刊上发表的这项研究——“基于4D毫米波雷达-相机融合与视差域深度恢复的鲁棒3D多目标追踪”——所致力解决的问题。该研究由一支国内团队完成,旨在不依赖复杂3D标注数据的前提下,构建一个鲁棒、低成本的3D多目标追踪框架。
为达成目标,研究人员运用了多项关键技术。首先,在雷达信号处理侧,采用了基于高斯分布的自适应角度压缩方法和基于IMU的速度补偿来抑制测量噪声,并利用一种改进的、带有递归簇分裂和历史静态框引导的DBSCAN(基于密度的空间聚类应用与噪声)聚类方案来生成高质量的雷达检测结果。其次,在视觉侧,核心创新在于提出了一种“视差域度量深度恢复”方法:利用滤波后的雷达静态点作为稀疏度量锚点,在视差(disparity)域内使用RANSAC(随机抽样一致)算法进行鲁棒拟合,并应用卡尔曼滤波进行时间平滑,从而将视觉基础模型Depth Anything V2输出的相对深度转换为度量深度。最后,在检测层和追踪层分别设计了分层融合策略,以实现稳定的跨模态状态关联。整个系统在自收集的数据集上进行了验证。
3.2.1. 高斯分布基的数据预处理方法
针对4D雷达俯仰角测量噪声大的问题,该方法以高斯分布为参考模型,通过计算偏度(skewness)和峰度(kurtosis)来衡量俯仰角分布偏离正态的程度,从而自适应地选择压缩参考角(均值或中位数),有效抑制了因角度噪声导致的点云几何失真。
3.2.2. 基于IMU的速度补偿
结合IMU提供的角速度信息,对雷达点的径向速度进行自我运动补偿,从而更准确地区分静态点和动态点,提升了后续处理的准确性。
3.2.3. 改进的DBSCAN聚类
采用了递归簇分裂策略并结合几何约束,有效缓解了多径干扰和过聚类(over-clustering)问题,提高了雷达检测的几何精度和时间稳定性。
3.4. 基于4D雷达静态点的单目度量深度恢复
这是本研究的核心贡献之一。研究发现,单目深度网络(如Depth Anything V2)的输出与真实深度在视差域呈线性关系。因此,研究者将滤波后的雷达静态点投影到图像平面,与对应的网络预测深度值(转换为视差)建立关联。通过RANSAC算法在视差域进行鲁棒线性拟合,得到从预测视差到真实深度的标定参数。为了提升长距离尺度一致性和对异常值的鲁棒性,该方法采用了基于自适应MAD(中位数绝对偏差)阈值的RANSAC,并对标定参数应用卡尔曼滤波进行时间平滑。最终,利用拟合出的标定参数,将整幅图像的相对深度图转换为度量深度图。
3.5. 检测层与追踪层融合
在检测层,将视觉分支(利用恢复的度量深度将2D检测反投影为3D框)和雷达分支生成的3D检测框,通过空间关联进行融合,并结合了视觉语义信息和雷达速度线索,形成更完整的融合检测结果。在追踪层,采用线性卡尔曼滤波器进行目标状态预测与更新,并使用匈牙利算法(Hungarian algorithm)进行轨迹与检测的最优匹配,辅以轨迹管理机制处理目标的出现、消失和遮挡,最终输出包含3D位置、速度、类别和ID的目标轨迹。
实验结果表明,该研究所提出的方法在自收集的数据集上实现了77.93%的整体MOTA(多目标追踪准确度)。这一性能显著优于单模态(仅雷达或仅视觉)基线以及其他对比方法,提升幅度达到11至31个百分点。这充分证明了融合框架的有效性和优越性。
结论与讨论
本研究成功构建并验证了一个基于4D毫米波雷达与单目相机融合的3D多目标追踪框架。其主要贡献在于:第一,提出了一套增强的4D雷达点云处理流程,通过噪声抑制、运动补偿和智能聚类,提升了雷达检测的质量;第二,创新性地提出了基于4D雷达静态点锚定的单目度量深度恢复方法,通过在视差域进行鲁棒拟合和时间平滑,解决了单目视觉的尺度模糊问题,获得了稳定、精确的度量深度观测;第三,设计了解耦的检测与追踪层融合架构,充分利用了视觉的语义优势和雷达的运动信息优势,实现了稳定的跨模态数据关联与轨迹维持。
该研究的意义在于,它为复杂动态场景下的低成本、鲁棒环境感知提供了一种有效的解决方案。它避免了依赖昂贵的激光雷达和大规模3D标注数据,更贴近量产应用的需求。尤其是在恶劣天气和低能见度条件下,4D雷达的强鲁棒性与视觉的丰富语义信息相结合,有望显著提升自动驾驶系统的安全边界和可靠性。未来工作可进一步探索在线外参标定、更精细的跨模态特征融合以及端到端的优化,以推动该技术走向实际应用。