多尺度时空混合采样融合用于三维物体检测

《Engineering Applications of Artificial Intelligence》：A spatiotemporal mixed sampling fusion of multiple scales for three-dimensional object detection

【字体：大中小】 时间：2026年06月19日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　张超|罗希昭|王天|陶崇本|曹峰|周雷中国苏州215006，苏州大学计算机科学与技术学院摘要在多模态数据的降尺度处理过程中，传统的多头注意力机制往往缺乏足够的多尺度适应性。这一限制使得模型难以有效处理不同大小和类别的物体，从而导致定位信息的大量丢失。为克服这一难题，本文提出了一种

张超|罗希昭|王天|陶崇本|曹峰|周雷

中国苏州215006，苏州大学计算机科学与技术学院

摘要

在多模态数据的降尺度处理过程中，传统的多头注意力机制往往缺乏足够的多尺度适应性。这一限制使得模型难以有效处理不同大小和类别的物体，从而导致定位信息的大量丢失。为克服这一难题，本文提出了一种基于深度学习的物体检测方法——时空混合采样融合（SMSFusion）。具体而言，通过双流时空特征提取网络（FEN-DSS）在查询引导下，从采样位置生成自适应的时空特征。同时，引入变换等变转换模块（TECM），将稀疏的点云坐标聚合为轻量且紧凑的表示形式。此外，自适应混合机制（AMM）能够有效捕捉多模态特征之间的空间关系，从而提升点云与图像特征的对齐程度。最后，混合跨模态变换器（HCMT）将各种单模态数据源整合为统一的混合表示，增强时空感知能力，进而实现更准确的物体检测。在卡尔斯鲁厄理工学院、丰田技术研究院（KITTI）、nuScenes以及Waymo数据集上的实验结果表明，SMSFusion的平均精度高达86.09%，在KITTI数据集上的检测准确率为92.33%。此外，在真实自动驾驶平台上的测试也证明了该方法在现实场景中的稳健性和泛化能力。

引言

在自动驾驶感知系统中，三维物体检测是理解环境的核心组成部分，其检测精度直接影响后续车辆决策过程的可靠性与安全性。作为主要的感知方式，摄像头与激光雷达传感器具有很强的互补性：激光雷达能够通过精确的距离测量提供稀疏但高度精确的几何信息，而摄像头则能提供包括纹理和颜色在内的丰富外观特征，从而弥补激光雷达数据在语义层面的不足。

尽管多模态融合在理论层面具有巨大潜力，但在实际应用于自动驾驶物体检测时仍面临诸多挑战。现有的融合方法，如ACF-Net（田等人，2024年）这类非对称策略，试图通过以激光雷达为主导的融合方式来缓解模态不平衡问题，但这些方法仍然严重依赖基于投影的几何对齐方式。在密集的近距区域，刚性几何对应关系表现良好，但在点云极度稀疏的情况下，几何代理点无法与远处或被遮挡区域的图像像素建立可靠的对应关系，从而导致物体检测中出现明显的特征错位现象。此外，大多数现有方法采用静态融合路径，无法根据场景动态调整各模态的贡献度。因此，在面对物体检测中的特征异质性和长距离稀疏性问题时，由于缺乏自适应的跨模态交互机制，这些方法容易陷入次优解。

为从根本上解决远距离单帧点云的稀疏性问题，利用多帧时间序列数据已成为一种主流趋势（宋等人，2024a）。通过整合车辆行驶过程中收集的点云序列，可以获得时空连续的数据，从而为三维场景重建提供更丰富的几何上下文。一种简单的策略（罗等人，2018年）是将多帧激光雷达数据拼接起来，再使用常规的物体检测流程进行处理。而对于更精细的物体建模，主流方法通常采用两阶段策略（杨等人，2021年；齐等人，2021年；陈雪松等人，2022年），首先生成候选边界框，然后再利用区域提议网络（RPN）在时间维度上整合特征以进行优化。现有方法往往缺乏能够准确捕获有效时空采样点并构建紧凑等变特征的轻量级表示方式，这导致计算成本随帧数线性增长，影响实时性能。此外，虽然Transformer架构在建模长距离依赖关系方面表现优异，但标准的多头自注意力机制并未包含明确的多尺度自适应设计，这限制了其在稀疏点云中建立全局与局部特征之间有效关联的能力。这些局限性制约了不同大小和类别物体的检测性能上限。

为解决上述问题，本文提出了一种用于三维物体检测的多尺度时空混合采样融合方法（SMSFusion），其主要创新点如下。

•
为减少异构多模态数据在降维过程中的语义模糊性及定位信息丢失问题，SMSFusion框架采用了自适应混合机制。该方法并非简单地将特征进行拼接，而是在统一的鸟瞰图空间内，明确建模点云的几何结构与连续图像的时间运动特征之间的非线性映射关系。通过自适应地捕捉不同模态之间的空间位置依赖关系，该方法能够构建出具备时空意识的紧凑型混合特征表示，显著提升系统在复杂动态环境中的物体检测稳定性。
•
为解决传统多头自注意力机制在处理稀疏点云时尺度敏感度不足的问题，本文设计了双流时空特征提取网络。该网络采用查询引导的自适应时空采样策略，根据物体的空间尺度和运动状态动态调整感受野，并生成相应的自适应采样位置。通过这种设计，能够在全局时间关联与局部空间细节之间实现最佳平衡，从而有效避免因特征稀疏而导致远处小物体的漏检现象。
•
为解决大规模点云处理中的计算冗余和几何信息丢失问题，本文提出了变换等变转换模块。该模块基于旋转等变原理，将无结构的稀疏点云编码为旋转等变的紧凑特征形式，从而大幅减少特征通道的冗余，同时保留关键的几何拓扑结构。此外，该方法还整合了混合跨模态Transformer，使得点云、图像以及鸟瞰图特征在特征层面能够实现深度交互与互补增强。通过该方法，不同模态之间的特征差异得以消除，不仅提升了物体检测的准确性，还显著降低了计算开销。

章节节选

基于多模态的三维物体检测

基于多模态的三维物体检测旨在结合激光雷达提供的精确几何信息与摄像头带来的丰富语义纹理，以此突破单一模态感知的性能瓶颈。现有研究主要沿着三个方向展开：输入层增强、特征层交互以及鲁棒性提升。

在输入层融合方面，PointPainting（Vora等人，2020年）和PointAugmentation（王等人，2021年）通过为三维点云添加二维

SMSFusion的网络架构

如图1所示，所提出的SMSFusion框架采用分层式结构，用于实现强大的三维物体检测功能。该流程首先进入双分支特征提取阶段：原始点云先经过变换等变转换模块（TECM）的处理，通过旋转等变编码方式保留几何拓扑结构；与此同时，双流时空特征提取网络则负责从时空序列中捕获动态的运动特征

实验分析及讨论

SMSFusion算法在多个具有挑战性的三维物体检测数据集上进行了严格测试（王等人，2025年），包括卡尔斯鲁厄理工学院、丰田技术研究院（KITTI）、nuScenes以及Waymo开放数据集。此外，该方法还与其他当前最先进的三维物体检测方法进行了全面比较。通过大量的消融实验，分析了所提框架中各组成部分的贡献程度。该算法

结论

为解决多模态数据在降尺度处理过程中因无法适应不同大小和类别的物体而导致的定位信息丢失问题，本文提出了一种名为SMSFusion的时空混合采样融合方法，用于三维物体检测。首先，通过查询引导下的双流时空特征提取网络生成自适应的时空采样特征。同时，结合变换等变转换模块

CRediT作者贡献说明

张超：论文撰写——初稿、方法论、概念设计。罗希昭：方法论、资金获取、概念设计。王天：论文撰写——审阅与编辑、软件开发。陶崇本：论文撰写——审阅与编辑、项目管理、资金获取。曹峰：可视化处理、监督指导、资金获取。周雷：验证工作、监督指导。

利益冲突声明

作者声明不存在任何可能影响本文研究成果的已知财务利益关系或个人关系。

致谢

本研究部分得到了国家自然科学基金重点计划（项目编号：62436004）、国家自然科学基金联合基金（项目编号：U25A20436）以及国家自然科学基金（项目编号：62472300、62372317、62472269）的支持。

摘要

引言