基于胶囊加权知识蒸馏的多模态3D语义分割

《IEEE Access》:Multi-Modal 3D Semantic Segmentation with Capsule-Weighted Knowledge Distillation

【字体: 时间:2026年04月07日 来源:IEEE Access 3.6

编辑推荐:

   摘要: 对户外环境进行精确的3D语义分割是自动驾驶系统的基本要求,但由于传感器数据的异构性,这一任务仍然具有挑战性。激光雷达传感器能够提供精确的几何信息,但缺乏语义信息;而RGB相机虽然能够捕捉到详细的外观特征,但其深度

  

摘要:

对户外环境进行精确的3D语义分割是自动驾驶系统的基本要求,但由于传感器数据的异构性,这一任务仍然具有挑战性。激光雷达传感器能够提供精确的几何信息,但缺乏语义信息;而RGB相机虽然能够捕捉到详细的外观特征,但其深度估计的可靠性较低。现有的多模态融合方法通常对所有空间区域采用统一的融合策略,隐含地假设所有特征的可靠性相同,这限制了它们在复杂场景中的效果。我们提出了一种基于置信度的融合策略,利用胶囊网络的激活值来权衡2D和3D表示之间的知识传递。我们的关键发现是,胶囊向量的大小自然编码了特征存在的置信度,我们利用这一点来指导自适应融合,而无需额外的网络或监督。该框架通过基于胶囊的编码器处理RGB图像,通过稀疏点-体素编码器处理激光雷达点云。然后,一个四阶段的融合模块结合了这些模态:首先提取胶囊置信度分数,接着相应地对2D特征进行加权,将其投影到3D空间,最后从3D域进行基于置信度的知识蒸馏,以增强2D特征的学习。在所有评估的类别中,基于置信度的融合方法始终优于统一的基线方法。在SemanticKITTI数据集上的实验验证了这一假设,测试集的mIoU达到了66.8%,验证集达到了70.6%,相比基线方法提高了2.0%,同时保持了计算效率(仅使用了2140万个参数)。这些结果证明了基于置信度的融合方法是一种简单而有效的多模态3D语义分割技术,适用于自动驾驶应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号