一种用于室内语义占用预测的双残差变压器架构

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：A Dual Residual Transformer Architecture for Indoor Semantic Occupancy Prediction

【字体：大中小】 时间：2026年04月11日 来源：Pattern Recognition 7.6

编辑推荐：

　　提出双残差Transformer（DROcc）用于室内语义占据预测，通过双流Swin解码器实现RGB与深度图对称的跨模态注意力机制，结合多尺度残差融合模块缓解边界模糊问题，有效提升长尾类别预测精度，在EmbodiedScan基准上RGB-D、RGB和Depth设置下mIoU分别提升17.1%、23.8%和2.4%。

方世章|郑琪|王旭

中国深圳大学电子与信息工程学院

摘要

室内语义占用预测从多视图观测中推断出场景的完整3D语义。这为具身任务提供了不可或缺的感知能力。由于类别分布呈长尾特性以及观测数据对齐不佳，现有方法往往难以准确预测。为了解决这些挑战，我们提出了一种用于室内占用预测的双残差Transformer，命名为DROcc。它结合了基于Swin的双流解码器和窗口化交叉注意力机制，实现了RGB和深度观测之间的对称特征交换。多尺度残差融合模块还增强了不同空间尺度上的语义一致性，进一步提升了对较少见类别的预测能力。在EmbodiedScan基准测试上的实证实验表明，我们的DROcc在仅使用RGB、仅使用深度以及同时使用RGB和深度的数据集上均取得了领先性能，分别提高了23.8%、2.4%和17.1%。这验证了其在复杂3D环境中的详细理解能力。代码链接：https://github.com/encounter7777/DROcc

引言

语义占用预测是自动驾驶中的一个基本任务，其目标是构建环境的细粒度3D表示[1]、[2]。通过推理每个体素的占用状态和类别，这项任务能够支持诸如密集场景重建[3]、空间对齐[4]、大规模基准构建[5]和统一传感器融合[6]等下游应用。该任务处于3D场景理解和多模态感知的交叉点——这两个领域一直受到模式识别社区的持续关注。将这一范式扩展到室内环境同样至关重要，因为它将为服务机器人[7]、[8]、增强现实[9]、[10]和交互式康复[11]、[12]等具身AI应用提供不可或缺的感知能力。对周围3D占用的细粒度语义理解可以通过提供关键的环境上下文来进一步增强这些交互式应用。

考虑到室内场景的独特特性，如物体类别密集且粒度细、布局复杂以及遮挡严重，最近开发了几种用于室内语义占用预测的基准测试。具体来说，EmbodiedOcc专注于基于在线视觉的场景理解[13]，而EmbodiedOcc++进一步整合了平面正则化[14]。类似地，EmbodiedScan提供了一个整体的多模态套件[15]，GaussianWorld则引入了一种流式预测模型[16]。总体而言，这些方法包含两种不同的设置：在线预测和离线预测。在线设置模拟了代理探索过程中的连续感知，而离线设置假设只观察一步数据。在这项工作中，我们主要关注后者。

实现准确的室内离线占用预测面临两个主要挑战。首先，物体类别的分布呈长尾特性。常见结构（如墙壁和地板）在体素空间中占主导地位，而罕见但功能关键的类别（例如工具、小型装饰品）则严重不足。其次，观测模式的不对齐。RGB提供了纹理和语义线索，但对光照和纹理变化敏感。深度编码了几何结构，但受到噪声和传感器误差的影响。简单的串联方法不足以充分利用跨模态互补性[15]。近期文献探索了基于视觉-语义先验的多模态融合[17]和解耦优化方法[18]以实现3D感知。尽管有这些进展，现有的室内占用预测方法仍然主要依赖于简单的特征串联或标准的非对称交叉注意力。

Swin Transformer[19]在医学图像分割中的成功凸显了其在结构化3D推理方面的潜力。具体来说，Swin-Unet[20]展示了纯Transformer架构在密集预测任务中的有效性，而Swin UNETR[21]将这一范式扩展到了具有强大3D表示能力的体积医学数据。更近期的工作，如SwinUNETR-v2[22]，进一步改进了多尺度特征建模和鲁棒性。这些进展共同表明了基于Swin的架构在3D语义推理和模态交互方面的潜力。然而，这些方法不能直接应用于室内语义占用预测。由于RGB和深度提供了关于场景外观和几何的互补线索，应用标准交叉注意力会引入人为的不对称性[23]、[24]，即一种模态被迫作为查询，而另一种模态作为键和值。因此，对罕见类别的改进往往以牺牲常见类别的准确性为代价。

此外，引入了原始的移位窗口机制以实现窗口间的信息交互。然而，室内场景的3D体积的空间分辨率（例如40×40×16）远低于典型图像输入（例如512×512）。每个体素已经代表了相对较大的物理区域，相邻窗口可能不相关。在这种情况下引入移位操作可能会导致边界混合和不必要的噪声。鉴于上述问题，我们的研究旨在回答两个具体研究问题：（1）如何设计一种融合机制，使RGB和深度得到平等对待，以最大化它们的互补优势？（2）如何在不引入大量内存成本的情况下有效处理长尾、低分辨率的室内3D网格？

为了解决这些挑战，我们提出了一种用于室内占用预测的双残差Transformer（DROcc）。它基于带有窗口化交叉注意力的双流Swin解码器，确保RGB和深度之间的对称特征交换。与原始的Swin Transformer不同，我们移除了窗口化注意力中的移位操作。在此基础上，我们引入了一个多尺度残差融合模块，该模块跨分辨率和模态聚合特征，减轻了边界模糊，并在多数类别和少数类别中增强了鲁棒性。

我们在EmbodiedScan基准测试[15]上评估了DROcc，其性能始终超过强大的基线。我们的方法在各种输入模式下均取得了领先性能，分别在RGB-D数据集上提高了3.41（↑17.1%）的mIoU，在RGB数据集上提高了2.76（↑23.8%）的mIoU，在深度数据集上提高了0.38（↑2.4%）的mIoU。结果表明DROcc在室内离线占用预测中的有效性。由于EmbodiedScan基准测试也支持在线设置，我们也提供了相应的结果。

我们的贡献如下：

•
我们是第一个将基于Swin的3D交叉注意力引入室内语义占用预测的，并提出了一个用于RGB-深度交互的双流对称融合机制。
•
我们将多尺度残差融合集成到Transformer解码器中，解决了边界模糊问题，并在长尾类别间平衡了准确性。
•
我们在EmbodiedScan基准测试上使用DROcc建立了新的最佳性能，验证了其在复杂室内环境中的有效性。

部分片段

语义占用预测

现有方法大致可以分为基于体素的、基于平面的和混合范式。基于体素的方法将2D图像特征提升到3D体素网格中，并使用3D卷积或体积变换进行推理。它们保留了明确的3D几何结构和空间一致性，但对于高分辨率的室内体积来说，计算和内存消耗较大。例如，OccFormer引入了双路径Transformer在图像和体素空间中共同进行推理[25]。SelfOcc利用

概述

我们提出了DROcc，这是一种用于室内3D语义占用预测的双模态残差Transformer，旨在增强RGB和深度观测之间的多模态融合，适用于离线重建场景。给定一个同步的RGB序列

{(I_{n})}_{n = 1}^{N}

及其对应的深度序列

{(D_{n})}_{n = 1}^{N}

个视图，占用预测的目标是估计室内场景中

P \in R^{H \times W \times D \times K}

K个类别的密集体素语义概率如图1所示，DROcc首先采用两种特定于模态的

数据集和指标

我们的实验是在EmbodiedScan基准测试[15]上进行的，这是一个新建立的多模态3D感知套件，整合了几个流行的室内数据集，包括ScanNet v2 [41]、Matterport3D [42]和3RScan [43]。严格遵循EmbodiedScan [15]的方法，我们计算了平均交并比（mIoU）分数。它计算所有语义类别的平均IoU，以评估几何完整性和语义一致性。我们还报告了空类别的IoU（见表4）

结论

我们提出了DROcc，这是一个简单而有效的室内语义占用预测框架。广泛的实验表明，DROcc在各种输入模式下均取得了领先性能，显著提高了mIoU。通过全面的消融研究，我们验证了所提出的多尺度残差融合和双流注意力机制共同提高了体素级预测的准确性，并促进了有效的模态互补性。

手稿准备过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了Claude和Gemini来润色语言并提高手稿的可读性。使用这些工具后，作者根据需要审查和编辑了内容，并对已发表文章的内容负全责。

CRediT作者贡献声明

方世章：撰写——原始草稿、可视化、软件、方法论、形式分析、数据整理。郑琪：撰写——审阅与编辑、监督、方法论、资金获取、形式分析、概念化。王旭：撰写——审阅与编辑、监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

这项工作得到了中国国家自然科学基金（编号62502321）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言