基于胶囊加权知识蒸馏的多模态3D语义分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Access》：Multi-Modal 3D Semantic Segmentation with Capsule-Weighted Knowledge Distillation

【字体：大中小】 时间：2026年04月07日 来源：IEEE Access 3.6

编辑推荐：

　　摘要：对户外环境进行精确的3D语义分割是自动驾驶系统的基本要求，但由于传感器数据的异构性，这一任务仍然具有挑战性。激光雷达传感器能够提供精确的几何信息，但缺乏语义信息；而RGB相机虽然能够捕捉到详细的外观特征，但其深度

摘要：

对户外环境进行精确的3D语义分割是自动驾驶系统的基本要求，但由于传感器数据的异构性，这一任务仍然具有挑战性。激光雷达传感器能够提供精确的几何信息，但缺乏语义信息；而RGB相机虽然能够捕捉到详细的外观特征，但其深度估计的可靠性较低。现有的多模态融合方法通常对所有空间区域采用统一的融合策略，隐含地假设所有特征的可靠性相同，这限制了它们在复杂场景中的效果。我们提出了一种基于置信度的融合策略，利用胶囊网络的激活值来权衡2D和3D表示之间的知识传递。我们的关键发现是，胶囊向量的大小自然编码了特征存在的置信度，我们利用这一点来指导自适应融合，而无需额外的网络或监督。该框架通过基于胶囊的编码器处理RGB图像，通过稀疏点-体素编码器处理激光雷达点云。然后，一个四阶段的融合模块结合了这些模态：首先提取胶囊置信度分数，接着相应地对2D特征进行加权，将其投影到3D空间，最后从3D域进行基于置信度的知识蒸馏，以增强2D特征的学习。在所有评估的类别中，基于置信度的融合方法始终优于统一的基线方法。在SemanticKITTI数据集上的实验验证了这一假设，测试集的mIoU达到了66.8%，验证集达到了70.6%，相比基线方法提高了2.0%，同时保持了计算效率（仅使用了2140万个参数）。这些结果证明了基于置信度的融合方法是一种简单而有效的多模态3D语义分割技术，适用于自动驾驶应用。

联系信箱：

粤ICP备09063491号

摘要：

热点排行