基于4D毫米波雷达-相机融合与视差域深度恢复的鲁棒3D多目标追踪

《Sensors》：Robust 3D Multi-Object Tracking via 4D mmWave Radar-Camera Fusion and Disparity-Domain Depth Recovery Yunfei Xie, Xiaohui Li, Dingheng Wang, Zhuo Wang, Shiliang Li, Jia Wang and Zhenping Sun

【字体：大中小】 时间：2026年03月29日 来源：Sensors 3.5

编辑推荐：

　　本文为解决自动驾驶在复杂环境下3D多目标追踪精度不足的问题，提出了一种创新的雷达-相机融合框架。该研究通过4D雷达点云噪声抑制与单目视觉度量深度恢复，实现了传感器优势互补，在自建数据集上取得了77.93%的整体MOTA，性能超越单模态基线11~31个百分点，为低成本、鲁棒的环境感知提供了有效方案。

在自动驾驶的感知系统中，准确、实时地识别和追踪周围动态物体是实现安全导航的核心。然而，当前主流的传感器方案各有短板：激光雷达（LiDAR）虽精度高，但在雨、雾、雪等恶劣天气下性能骤降，且成本昂贵，难以大规模部署；而单目相机成本低廉、语义信息丰富，却因透视投影存在固有的尺度模糊性，难以直接恢复物体的真实三维位置，尤其在远距离时定位易发生漂移。如何在保证成本效益的同时，实现全天候、高精度的3D感知与追踪，是自动驾驶技术迈向更广泛应用必须攻克的难题。

近期兴起的4D成像毫米波雷达为解决这一矛盾带来了新的希望。与传统3D雷达相比，4D雷达增加了垂直天线阵列，能够测量俯仰角，输出包含距离、方位角、俯仰角和多普勒速度的四维点云数据。它在恶劣天气下穿透能力强，且成本远低于激光雷达。但其点云相对稀疏，且垂直方向测量噪声严重，常产生大量杂散点和虚假回波。另一方面，以Depth Anything V2为代表的单目深度估计模型在跨场景泛化方面取得了显著进展，能恢复细致的相对深度结构，但无法提供度量（metric，即有物理尺度）深度。如果能把4D雷达提供的稀疏度量信息与单目视觉的语义表达能力结合起来，或许能取长补短，大幅提升复杂场景下的3D感知与追踪能力。

这正是《Sensors》期刊上发表的这项研究——“基于4D毫米波雷达-相机融合与视差域深度恢复的鲁棒3D多目标追踪”——所致力解决的问题。该研究由一支国内团队完成，旨在不依赖复杂3D标注数据的前提下，构建一个鲁棒、低成本的3D多目标追踪框架。

为达成目标，研究人员运用了多项关键技术。首先，在雷达信号处理侧，采用了基于高斯分布的自适应角度压缩方法和基于IMU的速度补偿来抑制测量噪声，并利用一种改进的、带有递归簇分裂和历史静态框引导的DBSCAN（基于密度的空间聚类应用与噪声）聚类方案来生成高质量的雷达检测结果。其次，在视觉侧，核心创新在于提出了一种“视差域度量深度恢复”方法：利用滤波后的雷达静态点作为稀疏度量锚点，在视差（disparity）域内使用RANSAC（随机抽样一致）算法进行鲁棒拟合，并应用卡尔曼滤波进行时间平滑，从而将视觉基础模型Depth Anything V2输出的相对深度转换为度量深度。最后，在检测层和追踪层分别设计了分层融合策略，以实现稳定的跨模态状态关联。整个系统在自收集的数据集上进行了验证。

3.2.1. 高斯分布基的数据预处理方法

针对4D雷达俯仰角测量噪声大的问题，该方法以高斯分布为参考模型，通过计算偏度（skewness）和峰度（kurtosis）来衡量俯仰角分布偏离正态的程度，从而自适应地选择压缩参考角（均值或中位数），有效抑制了因角度噪声导致的点云几何失真。

3.2.2. 基于IMU的速度补偿

结合IMU提供的角速度信息，对雷达点的径向速度进行自我运动补偿，从而更准确地区分静态点和动态点，提升了后续处理的准确性。

3.2.3. 改进的DBSCAN聚类

采用了递归簇分裂策略并结合几何约束，有效缓解了多径干扰和过聚类（over-clustering）问题，提高了雷达检测的几何精度和时间稳定性。

3.4. 基于4D雷达静态点的单目度量深度恢复

这是本研究的核心贡献之一。研究发现，单目深度网络（如Depth Anything V2）的输出与真实深度在视差域呈线性关系。因此，研究者将滤波后的雷达静态点投影到图像平面，与对应的网络预测深度值（转换为视差）建立关联。通过RANSAC算法在视差域进行鲁棒线性拟合，得到从预测视差到真实深度的标定参数。为了提升长距离尺度一致性和对异常值的鲁棒性，该方法采用了基于自适应MAD（中位数绝对偏差）阈值的RANSAC，并对标定参数应用卡尔曼滤波进行时间平滑。最终，利用拟合出的标定参数，将整幅图像的相对深度图转换为度量深度图。

3.5. 检测层与追踪层融合

在检测层，将视觉分支（利用恢复的度量深度将2D检测反投影为3D框）和雷达分支生成的3D检测框，通过空间关联进行融合，并结合了视觉语义信息和雷达速度线索，形成更完整的融合检测结果。在追踪层，采用线性卡尔曼滤波器进行目标状态预测与更新，并使用匈牙利算法（Hungarian algorithm）进行轨迹与检测的最优匹配，辅以轨迹管理机制处理目标的出现、消失和遮挡，最终输出包含3D位置、速度、类别和ID的目标轨迹。

实验结果表明，该研究所提出的方法在自收集的数据集上实现了77.93%的整体MOTA（多目标追踪准确度）。这一性能显著优于单模态（仅雷达或仅视觉）基线以及其他对比方法，提升幅度达到11至31个百分点。这充分证明了融合框架的有效性和优越性。

结论与讨论

本研究成功构建并验证了一个基于4D毫米波雷达与单目相机融合的3D多目标追踪框架。其主要贡献在于：第一，提出了一套增强的4D雷达点云处理流程，通过噪声抑制、运动补偿和智能聚类，提升了雷达检测的质量；第二，创新性地提出了基于4D雷达静态点锚定的单目度量深度恢复方法，通过在视差域进行鲁棒拟合和时间平滑，解决了单目视觉的尺度模糊问题，获得了稳定、精确的度量深度观测；第三，设计了解耦的检测与追踪层融合架构，充分利用了视觉的语义优势和雷达的运动信息优势，实现了稳定的跨模态数据关联与轨迹维持。

该研究的意义在于，它为复杂动态场景下的低成本、鲁棒环境感知提供了一种有效的解决方案。它避免了依赖昂贵的激光雷达和大规模3D标注数据，更贴近量产应用的需求。尤其是在恶劣天气和低能见度条件下，4D雷达的强鲁棒性与视觉的丰富语义信息相结合，有望显著提升自动驾驶系统的安全边界和可靠性。未来工作可进一步探索在线外参标定、更精细的跨模态特征融合以及端到端的优化，以推动该技术走向实际应用。

热点排行