WaCoDepth：基于波形条件的双阶段特征融合网络，用于回声视觉深度估计

《Digital Signal Processing》：WaCoDepth: Waveform Conditioned Dual-Stage Feature Fusion Network for Echo-Visual Depth Estimation

【字体：大中小】 时间：2026年06月18日 来源：Digital Signal Processing 3

编辑推荐：

　　张文杰|马龙|尹军|李宝龙|徐明亮中国河南省郑州市郑州大学计算机科学与人工智能学院，邮编450001摘要在复杂环境中进行深度估计时，结合回波信号与视觉线索能提升精度，但核心难题在于一维波形与二维图像在结构上的不匹配。以往的研究通过将波形转换为频谱图来规避这一问题，但这种方式会丢失

张文杰|马龙|尹军|李宝龙|徐明亮

中国河南省郑州市郑州大学计算机科学与人工智能学院，邮编450001

摘要

在复杂环境中进行深度估计时，结合回波信号与视觉线索能提升精度，但核心难题在于一维波形与二维图像在结构上的不匹配。以往的研究通过将波形转换为频谱图来规避这一问题，但这种方式会丢失精细的时间-幅度信息，且未能充分利用原始回波信号。为解决这一问题，我们提出了WaCoDepth，这是一种基于波形的双阶段特征融合网络。该网络利用基于Wav2Vec的编码器提取精细的波形嵌入，将这些嵌入作为条件信息用于特征融合与深度解码两个阶段。在特征融合阶段，波形条件化UNet通过多分辨率下的波形引导交叉注意力机制，重新校准回波-视觉特征，从而减少模态冲突与空间错位问题。在深度解码阶段，迭代多模态深度优化器通过波形嵌入的跨模态关联推理，逐步优化自适应分箱，进而引入基于声学特性的深度先验，弥补融合特征之外的信息缺失。在Replica和Matterport3D数据集上测试表明，WaCoDepth的均值绝对相对误差相比现有最优方法分别降低了13.6%和18%，基于阈值的准确率则提升了2.8%和8.3%，充分体现了利用原始回波波形进行精确深度估计的价值。

引言

回波-视觉深度估计通过利用回波信号与视觉信号各自的优点，提升了深度测量的准确性，其应用场景涵盖自动驾驶[1]、[2]、增强现实[3]、[4]以及机器人导航[5]、[6]、[7]、[8]。尽管已有不少研究成果，但由于两种模态之间存在较大差异，要实现精准的深度预测仍面临诸多挑战。

现有的方法[9]、[10]、[11]、[12]通常会使用短时傅里叶变换将一维回波波形转换为二维频谱图，以此获得时频表示形式。随后通过不同的编码器从频谱图与图像中提取特征，再将这些特征融合为多模态特征表示，最后通过解码得到深度值。

在回波-视觉深度估计中，视觉图像具备包含纹理、光照和阴影等深度信息的结构化二维表征，因此可以从中提取有用的深度信息。而回波频谱图则呈现结构化的二维时频模式，能够编码场景的深度信息，且不受光照条件的影响。例如，不同时间点出现的相似频域模式往往对应不同的空间深度，因为回波在从不同距离的物体反射后会以准周期的方式逐渐衰减。频率分布的变化则反映了不同的空间位置，因为不同物体反射的回波通常具有独特的频率特征。频谱图不仅能够有效体现提供结构化空间信息的时频特性，其二维格式也与图像极为相似，因此可以很容易地被整合到多模态深度学习框架中[10]、[11]、[14]。不过，短时傅里叶变换本身是一种有损变换，其时频分辨率受海森堡不确定性原理的限制，因此无法同时实现最高的时域分辨率和频域分辨率[13]、[15]。在基于回波的深度估计中，回波峰值的到达时间蕴含着重要的空间深度信息，但有限的短时傅里叶变换窗口可能会模糊相邻的峰值，还会丢失子帧级的时间信息。相比之下，原始波形保留了完整的幅度-时间信息，波形编码器可以利用这些信息提取出短时傅里叶变换表示无法完全保留的精细时间特征。然而，由于一维波形与二维频谱图及图像在维度上存在差异，将二者融合仍然是一项挑战，因此原始波形在深度估计中的高效应用至今尚未得到充分探索。

为解决这一难题，我们提出了如图1所示的新型融合框架WaCoDepth，该框架可直接从回波波形中提取精细细节，并将这些细节作为条件信息融入特征融合与深度解码两个阶段。为了从回波波形中获取精细信息，我们设计了基于Wav2Vec的波形编码器[16]，该编码器可将声学特征映射为一组可学习的潜在空间向量，再通过基于softmax的加权方式计算出最终的波形嵌入。WaCoDepth分别在特征融合阶段和深度解码阶段利用波形条件化UNet与迭代多阶段深度优化器，将提取到的波形嵌入应用于特征融合与深度解码过程。在特征融合阶段，波形条件化UNet会在多尺度层面实现视觉信号与回波信号的空间特征融合，并通过多分辨率下的交叉注意力机制整合波形嵌入，从而使网络能够动态调整回波-视觉特征之间的交互关系。在深度解码阶段，迭代多阶段深度优化器则采用多层架构，在波形嵌入的引导下逐步优化自适应分箱，从而不断提升分箱的精度。我们的设计并非直接采用AdaBins算法，而是受到了自适应分箱离散化思路的启发，这种思路为通过波形条件注入场景级的声学先验提供了良好的接口。通过这种双阶段条件机制，WaCoDepth能够捕捉原始回波信号的精细特征，并在深度估计流程中引入基于声学信息的条件约束。

我们的主要贡献可总结如下：

•
我们提出了一种新型融合框架WaCoDepth，该框架利用回波波形嵌入作为条件信息，指导特征融合与深度解码两个阶段的处理过程。这种双阶段条件机制能够在整个深度估计流程中保留并充分利用精细的波形嵌入，从而提升模型的跨模态对齐能力与深度感知性能。在Replica和Matterport3D数据集上的实验表明，与现有最优方法相比，我们的方法可使均值绝对相对误差降低13.6%和18%。
•
我们设计了两个核心组件：波形条件化UNet与迭代多阶段深度优化器。波形条件化UNet通过多尺度交叉注意力机制将波形嵌入引入回波-视觉特征融合过程，从而实现多模态对齐并强化与深度相关的特征。迭代多阶段深度优化器则采用多层架构，在波形嵌入的引导下逐步优化深度估计结果，借助从波形中获得的声学条件信息实现更精准的深度估计。

章节节选

单目深度估计

近年来，单目深度估计领域出现了多种不同的技术路线，包括基于回归的方法[18]、[19]、[20]以及基于生成式模型的方法[21]、[22]。与这些方法不同，AdaBins[17]采用了一种混合策略，将深度估计同时视为回归任务与分类任务，从而提升了其在各类场景中的适用性。具体而言，该方法首先通过分类手段将深度范围划分为多个区间

方法

所提出的WaCoDepth旨在将波形嵌入有效地整合到回波-视觉深度估计流程中，具体结构如图2所示。首先，我们使用Swin-T[28]作为视觉编码器处理输入图像I，同时使用ResNet-18[29]作为频谱图编码器处理回波频谱图S。处理后的特征会被拼接在一起，形成编码特征F_ev。与此同时，波形编码器会对原始回波波形w进行处理，从而提取出精细的回波特征

数据集与评估指标

数据集 我们在Replica[34]和Matterport3D[35]数据集上进行了实验。Replica数据集包含18个场景共6,960个样本，其中15个场景的5,496个样本被划分为训练集（4,924个样本）和验证集（572个样本），另外3个场景的1,464个样本作为测试集，这一划分方式参考了[11]的研究。Matterport3D数据集则是目前可用于回波-视觉深度估计的最大规模数据集

局限性与讨论

虽然WaCoDepth在常见的回波-视觉深度估计基准测试中表现优异，但仍存在一些局限性。首先，所有实验都是在模拟的室内数据集上进行的。尽管Matterport3D涵盖了多种房间类型与不同的声学环境，但该方法的泛化能力在真实世界的回波信号上尚未得到验证。其次，与一些轻量级基准模型相比，WaCoDepth的推理延迟更高，这可能限制其在实际应用中的推广

结论与未来工作

本文提出了WaCoDepth，这是一种基于波形的双阶段特征融合网络，专门用于回波-视觉深度估计。该网络首先提取波形嵌入，并将其作为条件信息用于两个阶段：特征融合阶段通过波形条件化UNet实现多模态特征的整合，深度解码阶段则通过迭代多阶段深度优化器对自适应分箱进行逐步优化。在Replica和Matterport3D数据集上的实验结果表明，WaCoDepth的性能显著优于现有的最优方法

CRediT作者贡献说明

张文杰：概念设计、方法设计、研究指导、论文撰写——审稿与编辑。马龙：方法设计、软件实现、实验研究、数据整理、形式化分析、结果验证、可视化处理、论文撰写——初稿撰写、审稿与编辑。尹军：形式化分析、论文审稿与编辑。李宝龙：论文审稿与编辑。徐明亮：研究指导、资源协调、论文审稿与编辑。

利益冲突声明

作者声明，他们不存在任何可能影响本文研究结果的已知财务利益或个人关系。

摘要

引言