SliceSemOcc: Vertical Slice Based Multimodal 3D Semantic Occupancy Representation

📄 arXiv: 2509.03999v1 📥 PDF

作者: Han Huang, Han Sun, Ningzhong Liu, Huiyu Zhou, Jiaquan Shen

分类: cs.CV

发布日期: 2025-09-04

备注: 14 pages, accepted by PRCV2025


💡 一句话要点

SliceSemOcc:提出基于垂直切片的多模态3D语义占据表示方法,提升小物体识别精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D语义占据预测 垂直切片 多模态融合 自动驾驶 体素表示

📋 核心要点

  1. 现有3D语义占据预测方法在处理体素特征时,对高度轴信息利用不足,限制了对垂直方向语义变化的建模能力。
  2. SliceSemOcc通过提取全局和局部垂直切片特征,并设计全局局部融合模块,自适应地融合细粒度空间细节和整体上下文信息。
  3. 实验表明,SliceSemOcc在nuScenes数据集上显著提高了平均IoU,尤其是在小物体类别上取得了显著的性能提升。

📝 摘要(中文)

为了满足自动驾驶对精确3D感知的需求,3D语义占据预测已成为关键研究课题。与将场景表示限制在2D平面上的鸟瞰图(BEV)方法不同,占据预测利用完整的3D体素网格来建模所有维度上的空间结构,从而捕获沿垂直轴的语义变化。然而,大多数现有方法在处理体素特征时忽略了高度轴信息。传统的SENet风格的通道注意力在所有高度层上分配均匀的权重,限制了它们强调不同高度特征的能力。为了解决这些限制,我们提出SliceSemOcc,一种新颖的基于垂直切片的多模态框架,用于3D语义占据表示。具体来说,我们使用全局和局部垂直切片提取沿高度轴的体素特征。然后,全局局部融合模块自适应地协调细粒度的空间细节与整体上下文信息。此外,我们提出了SEAttention3D模块,该模块通过平均池化保留高度方向的分辨率,并为每个高度层分配动态通道注意力权重。在nuScenes-SurroundOcc和nuScenes-OpenOccupancy数据集上的大量实验验证了我们的方法显著提高了平均IoU,尤其是在大多数小物体类别上获得了显著的提升。详细的消融研究进一步验证了所提出的SliceSemOcc框架的有效性。

🔬 方法详解

问题定义:现有3D语义占据预测方法,特别是基于体素的方法,在处理高度轴信息时存在不足。传统方法要么忽略高度轴信息,要么使用SENet等方法对所有高度层分配相同的权重,无法有效区分不同高度层的重要性,导致对垂直方向语义变化的建模能力受限,尤其影响小物体识别精度。

核心思路:SliceSemOcc的核心思路是充分利用高度轴信息,通过垂直切片的方式提取体素特征,并自适应地融合全局和局部信息。通过这种方式,模型能够更好地捕捉不同高度层的语义信息,从而提高3D语义占据预测的精度。

技术框架:SliceSemOcc框架主要包含以下几个模块:1) 垂直切片特征提取模块:使用全局和局部垂直切片提取沿高度轴的体素特征。2) 全局局部融合模块:自适应地融合全局和局部特征,以协调细粒度的空间细节与整体上下文信息。3) SEAttention3D模块:通过平均池化保留高度方向的分辨率,并为每个高度层分配动态通道注意力权重。整体流程是,首先提取多模态输入特征,然后通过垂直切片特征提取模块提取高度轴特征,接着通过全局局部融合模块和SEAttention3D模块进行特征融合和增强,最后进行3D语义占据预测。

关键创新:SliceSemOcc的关键创新在于:1) 提出基于垂直切片的特征提取方法,充分利用高度轴信息。2) 设计全局局部融合模块,自适应地融合全局和局部特征。3) 提出SEAttention3D模块,为每个高度层分配动态通道注意力权重。与现有方法的本质区别在于,SliceSemOcc更加关注高度轴信息的利用,能够更好地捕捉垂直方向的语义变化。

关键设计:在垂直切片特征提取模块中,采用了不同大小的切片来捕捉不同尺度的信息。全局切片用于捕捉整体上下文信息,局部切片用于捕捉细粒度的空间细节。在全局局部融合模块中,使用了注意力机制来动态地融合全局和局部特征。在SEAttention3D模块中,使用了平均池化来保留高度方向的分辨率,并使用Sigmoid函数来生成通道注意力权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SliceSemOcc在nuScenes-SurroundOcc和nuScenes-OpenOccupancy数据集上进行了大量实验,结果表明该方法显著提高了平均IoU,尤其是在大多数小物体类别上获得了显著的提升。例如,在nuScenes-SurroundOcc数据集上,SliceSemOcc的平均IoU相比基线方法提升了X%(具体数据未知)。详细的消融研究进一步验证了所提出的SliceSemOcc框架的有效性,证明了各个模块的贡献。

🎯 应用场景

SliceSemOcc在自动驾驶领域具有重要的应用价值,可以用于提高车辆对周围环境的感知能力,尤其是在复杂场景下对小物体(如行人、交通标志等)的识别精度。此外,该方法还可以应用于机器人导航、三维重建等领域,提升机器人对环境的理解和交互能力。未来,该研究可以进一步扩展到更多模态的数据融合,例如将激光雷达数据与视觉数据进行更有效的融合,从而实现更鲁棒和精确的3D语义感知。

📄 摘要(原文)

Driven by autonomous driving's demands for precise 3D perception, 3D semantic occupancy prediction has become a pivotal research topic. Unlike bird's-eye-view (BEV) methods, which restrict scene representation to a 2D plane, occupancy prediction leverages a complete 3D voxel grid to model spatial structures in all dimensions, thereby capturing semantic variations along the vertical axis. However, most existing approaches overlook height-axis information when processing voxel features. And conventional SENet-style channel attention assigns uniform weight across all height layers, limiting their ability to emphasize features at different heights. To address these limitations, we propose SliceSemOcc, a novel vertical slice based multimodal framework for 3D semantic occupancy representation. Specifically, we extract voxel features along the height-axis using both global and local vertical slices. Then, a global local fusion module adaptively reconciles fine-grained spatial details with holistic contextual information. Furthermore, we propose the SEAttention3D module, which preserves height-wise resolution through average pooling and assigns dynamic channel attention weights to each height layer. Extensive experiments on nuScenes-SurroundOcc and nuScenes-OpenOccupancy datasets verify that our method significantly enhances mean IoU, achieving especially pronounced gains on most small-object categories. Detailed ablation studies further validate the effectiveness of the proposed SliceSemOcc framework.