MambaOcc: Visual State Space Model for BEV-based Occupancy Prediction with Local Adaptive Reordering
作者: Yonglin Tian, Songlin Bai, Zhiyao Luo, Yutong Wang, Yisheng Lv, Fei-Yue Wang
分类: cs.CV
发布日期: 2024-08-21
🔗 代码/项目: GITHUB
💡 一句话要点
MambaOcc:基于视觉状态空间模型的BEV占用预测,采用局部自适应重排序
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 占用预测 Mamba模型 BEV感知 自动驾驶 局部自适应重排序
📋 核心要点
- 现有占用预测方法计算成本高昂,参数量大,难以满足自动驾驶系统对实时性和资源效率的需求。
- MambaOcc利用BEV特征降低3D场景表示复杂度,并引入线性Mamba注意力机制实现高效长程感知。
- 实验表明,MambaOcc在Occ3D-nuScenes数据集上取得了SOTA性能,参数量和计算成本显著降低。
📝 摘要(中文)
占用预测在自动驾驶系统的发展中备受关注,并在开放场景下促进了通用感知和安全规划。然而,基于体素的3D密集表示和基于Transformer的二次注意力机制带来了高计算成本和大量参数。为了解决这些挑战,本文提出了一种基于Mamba的占用预测方法(MambaOcc),采用BEV特征来减轻3D场景表示的负担,并采用线性Mamba风格的注意力机制来实现高效的远距离感知。此外,为了解决Mamba对序列顺序的敏感性,我们提出了一种带有可变形卷积的局部自适应重排序(LAR)机制,并设计了一种由卷积层和Mamba组成的混合BEV编码器。在Occ3D-nuScenes数据集上的大量实验表明,MambaOcc在准确性和计算效率方面都达到了最先进的性能。例如,与FlashOcc相比,MambaOcc提供了卓越的结果,同时减少了42%的参数和39%的计算成本。
🔬 方法详解
问题定义:现有基于体素的3D占用预测方法,特别是依赖Transformer的方法,由于其二次方级别的计算复杂度,导致计算成本高,参数量大,难以满足自动驾驶系统对实时性的要求。此外,Mamba模型对输入序列的顺序敏感,直接应用可能导致性能下降。
核心思路:本文的核心思路是利用Mamba模型的线性复杂度来降低计算成本,并设计局部自适应重排序(LAR)机制来解决Mamba对序列顺序的敏感性问题。通过将3D场景表示转换为BEV特征,进一步降低了计算复杂度。
技术框架:MambaOcc的整体框架包含一个混合BEV编码器和一个基于Mamba的解码器。混合BEV编码器由卷积层和Mamba层组成,用于提取BEV特征。局部自适应重排序(LAR)模块被集成到Mamba层中,以缓解序列顺序敏感性。解码器利用Mamba模型进行占用预测。
关键创新:该论文的关键创新在于以下几点:1) 将Mamba模型引入到占用预测任务中,利用其线性复杂度实现高效的远距离感知。2) 提出了局部自适应重排序(LAR)机制,通过可变形卷积动态调整序列顺序,解决了Mamba模型对序列顺序的敏感性问题。3) 设计了混合BEV编码器,结合了卷积层和Mamba层的优点,提高了特征提取能力。
关键设计:局部自适应重排序(LAR)模块使用可变形卷积来学习每个位置的偏移量,然后根据学习到的偏移量对局部区域内的特征进行重排序。混合BEV编码器中,卷积层用于提取局部特征,Mamba层用于捕捉长距离依赖关系。损失函数采用标准的交叉熵损失函数,用于衡量预测的占用概率与真实占用情况之间的差异。
🖼️ 关键图片
📊 实验亮点
MambaOcc在Occ3D-nuScenes数据集上取得了SOTA性能,与FlashOcc相比,参数量减少了42%,计算成本降低了39%,同时保持了甚至提升了预测精度。这表明MambaOcc在计算效率和准确性方面都具有显著优势。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航等领域,为环境感知提供更高效、更准确的解决方案。通过降低计算成本和参数量,MambaOcc有望在资源受限的嵌入式平台上部署,加速自动驾驶技术的落地。未来,该方法可以扩展到其他感知任务,例如目标检测、语义分割等。
📄 摘要(原文)
Occupancy prediction has attracted intensive attention and shown great superiority in the development of autonomous driving systems. The fine-grained environmental representation brought by occupancy prediction in terms of both geometry and semantic information has facilitated the general perception and safe planning under open scenarios. However, it also brings high computation costs and heavy parameters in existing works that utilize voxel-based 3d dense representation and Transformer-based quadratic attention. To address these challenges, in this paper, we propose a Mamba-based occupancy prediction method (MambaOcc) adopting BEV features to ease the burden of 3D scenario representation, and linear Mamba-style attention to achieve efficient long-range perception. Besides, to address the sensitivity of Mamba to sequence order, we propose a local adaptive reordering (LAR) mechanism with deformable convolution and design a hybrid BEV encoder comprised of convolution layers and Mamba. Extensive experiments on the Occ3D-nuScenes dataset demonstrate that MambaOcc achieves state-of-the-art performance in terms of both accuracy and computational efficiency. For example, compared to FlashOcc, MambaOcc delivers superior results while reducing the number of parameters by 42\% and computational costs by 39\%. Code will be available at https://github.com/Hub-Tian/MambaOcc.