OccMamba: Semantic Occupancy Prediction with State Space Models
作者: Heng Li, Yuenan Hou, Xiaohan Xing, Yuexin Ma, Xiao Sun, Yanyong Zhang
分类: cs.CV
发布日期: 2024-08-19 (更新: 2025-03-11)
备注: 13 pages, 5 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出OccMamba,首个基于Mamba架构的语义占据预测网络,提升效率与精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语义占据预测 Mamba架构 状态空间模型 自动驾驶 三维场景理解
📋 核心要点
- 语义占据预测面临海量数据、严重遮挡和复杂场景等挑战,现有Transformer方法计算复杂度高,限制了其效率和部署。
- OccMamba利用Mamba架构的全局建模能力和线性计算复杂度,结合分层Mamba模块和局部上下文处理器,有效聚合全局和局部信息。
- 通过高度优先的2D Hilbert扩展,OccMamba缓解了3D和1D领域差异,并在多个数据集上超越现有方法,显著提升了性能。
📝 摘要(中文)
针对语义占据预测中大量占据单元、严重遮挡、有限视觉线索和复杂驾驶场景等挑战,以及Transformer架构计算复杂度高的局限性,本文提出了首个基于Mamba架构的语义占据预测网络OccMamba。OccMamba设计了分层Mamba模块和局部上下文处理器,分别用于聚合全局和局部上下文信息。此外,为了缓解语言和3D领域之间的固有领域差距,提出了一种简单有效的3D到1D重排序方案,即高度优先的2D Hilbert扩展,最大限度地保留3D体素的空间结构,并方便Mamba块的处理。实验结果表明,OccMamba能够直接有效地处理大量密集场景网格,并在OpenOccupancy、SemanticKITTI和SemanticPOSS三个主流占据预测基准上取得了最先进的性能。在OpenOccupancy上,OccMamba的IoU和mIoU分别超过了之前的最先进方法Co-Occ 5.1%和4.3%。代码已开源。
🔬 方法详解
问题定义:语义占据预测旨在预测场景中每个体素是否被占据,并赋予其语义标签。现有方法,特别是基于Transformer的方法,虽然能够捕捉长距离依赖关系,但计算复杂度呈平方增长,难以处理大规模的3D场景数据,限制了其在实际应用中的效率和部署。
核心思路:OccMamba的核心思路是利用Mamba架构的线性计算复杂度和全局建模能力,替代Transformer架构,从而在保证性能的同时,显著降低计算成本。此外,通过特定的数据重排方式,更好地适应Mamba架构对序列数据的处理。
技术框架:OccMamba的整体框架包括以下几个主要模块:1) 数据预处理:将3D体素数据通过高度优先的2D Hilbert扩展重排为1D序列。2) 分层Mamba模块:用于捕捉全局上下文信息。3) 局部上下文处理器:用于增强局部细节信息。4) 预测头:用于输出每个体素的占据和语义预测结果。
关键创新:OccMamba的关键创新在于:1) 首次将Mamba架构应用于语义占据预测任务。2) 提出了分层Mamba模块和局部上下文处理器,有效融合全局和局部信息。3) 设计了高度优先的2D Hilbert扩展,缓解了3D和1D数据之间的领域差异。
关键设计:高度优先的2D Hilbert扩展是关键设计之一,它保证了在将3D体素数据转换为1D序列时,尽可能地保留了空间相邻关系。分层Mamba模块通过不同尺度的Mamba块,捕捉不同范围的上下文信息。局部上下文处理器可能采用了卷积或其他局部操作,以增强局部细节的表达能力(具体细节未知)。损失函数可能采用了交叉熵损失或其他适用于语义分割任务的损失函数(具体细节未知)。
🖼️ 关键图片
📊 实验亮点
OccMamba在三个主流语义占据预测基准测试中取得了最先进的性能。在OpenOccupancy数据集上,OccMamba的IoU和mIoU分别超过了之前的最先进方法Co-Occ 5.1%和4.3%。这些结果表明,OccMamba在效率和精度方面都优于现有的方法,具有显著的优势。
🎯 应用场景
OccMamba在自动驾驶、机器人导航、三维场景理解等领域具有广泛的应用前景。它可以帮助自动驾驶系统更准确地感知周围环境,提高行驶安全性。在机器人导航中,OccMamba可以用于构建精确的三维地图,辅助机器人进行路径规划和避障。此外,该技术还可以应用于虚拟现实、增强现实等领域,提升用户体验。
📄 摘要(原文)
Training deep learning models for semantic occupancy prediction is challenging due to factors such as a large number of occupancy cells, severe occlusion, limited visual cues, complicated driving scenarios, etc. Recent methods often adopt transformer-based architectures given their strong capability in learning input-conditioned weights and long-range relationships. However, transformer-based networks are notorious for their quadratic computation complexity, seriously undermining their efficacy and deployment in semantic occupancy prediction. Inspired by the global modeling and linear computation complexity of the Mamba architecture, we present the first Mamba-based network for semantic occupancy prediction, termed OccMamba. Specifically, we first design the hierarchical Mamba module and local context processor to better aggregate global and local contextual information, respectively. Besides, to relieve the inherent domain gap between the linguistic and 3D domains, we present a simple yet effective 3D-to-1D reordering scheme, i.e., height-prioritized 2D Hilbert expansion. It can maximally retain the spatial structure of 3D voxels as well as facilitate the processing of Mamba blocks. Endowed with the aforementioned designs, our OccMamba is capable of directly and efficiently processing large volumes of dense scene grids, achieving state-of-the-art performance across three prevalent occupancy prediction benchmarks, including OpenOccupancy, SemanticKITTI, and SemanticPOSS. Notably, on OpenOccupancy, our OccMamba outperforms the previous state-of-the-art Co-Occ by 5.1% IoU and 4.3% mIoU, respectively. Our implementation is open-sourced and available at: https://github.com/USTCLH/OccMamba.