MambaFusion: Height-Fidelity Dense Global Fusion for Multi-modal 3D Object Detection

📄 arXiv: 2507.04369v1 📥 PDF

作者: Hanshi Wang, Jin Gao, Weiming Hu, Zhipeng Zhang

分类: cs.CV

发布日期: 2025-07-06

备注: 10 pages

期刊: ICCV 2025


💡 一句话要点

MambaFusion:提出一种高效的高度保真稠密全局融合方法,用于多模态3D目标检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多模态融合 3D目标检测 相机-激光雷达 Mamba 状态空间模型 高度保真编码 全局融合

📋 核心要点

  1. 现有融合方法难以兼顾效率、长程建模和完整场景信息,限制了多模态3D目标检测的性能。
  2. 提出高度保真激光雷达编码和混合Mamba块,分别解决高度信息丢失和上下文建模不足的问题。
  3. 在nuScenes验证集上达到75.0的NDS,超越现有方法,同时保持较高的推理速度。

📝 摘要(中文)

本文提出了一种纯Mamba块实现高效稠密全局融合的方法,同时保证相机-激光雷达多模态3D目标检测的顶级性能。现有融合策略在效率、长程建模和保留完整场景信息方面存在局限性。受状态空间模型(SSMs)和线性注意力的启发,本文利用它们的线性复杂度和长程建模能力来解决这些挑战。然而,简单地采用高效的线性复杂度方法并不一定能带来改进,甚至可能降低性能。这种性能下降归因于多模态对齐过程中高度信息的丢失,导致序列顺序的偏差。为了解决这个问题,本文提出了高度保真激光雷达编码,通过在连续空间中进行体素压缩来保留精确的高度信息,从而增强相机-激光雷达的对齐。随后,本文引入了混合Mamba块,利用丰富的高度信息特征来进行局部和全局上下文学习。通过整合这些组件,该方法在nuScenes验证基准上实现了75.0的顶级NDS分数,甚至超过了使用高分辨率输入的方法。同时,该方法保持了效率,实现了比大多数最新的state-of-the-art方法更快的推理速度。

🔬 方法详解

问题定义:现有的多模态3D目标检测方法在融合相机和激光雷达数据时,难以同时保证效率、长程依赖建模和完整场景信息的保留。特别是,直接应用线性复杂度的模型可能导致性能下降,因为在多模态对齐过程中会丢失重要的高度信息,从而影响序列的正确排序。

核心思路:本文的核心思路是通过保留高度信息来改善多模态对齐,并利用Mamba架构进行高效的全局上下文建模。具体来说,首先通过高度保真激光雷达编码来保留精确的高度信息,然后使用混合Mamba块来学习局部和全局的上下文关系。

技术框架:MambaFusion的整体框架包括以下几个主要阶段:1) 激光雷达数据的高度保真编码,将三维点云压缩成保留高度信息的特征表示;2) 相机图像特征提取;3) 多模态特征融合,使用混合Mamba块对编码后的激光雷达特征和相机特征进行融合;4) 3D目标检测头,用于预测3D bounding box。

关键创新:该方法最重要的技术创新在于:1) 提出了高度保真激光雷达编码,通过在连续空间中进行体素压缩,有效地保留了高度信息,从而改善了相机-激光雷达的对齐;2) 引入了混合Mamba块,该模块能够同时进行局部和全局的上下文学习,从而更好地利用多模态信息。与现有方法相比,MambaFusion能够在保证效率的同时,更好地保留和利用高度信息,从而提升检测性能。

关键设计:高度保真激光雷达编码的关键在于体素压缩的方式,具体实现细节未知。混合Mamba块的设计可能包括对Mamba块结构的修改,使其能够同时处理局部和全局的上下文信息。损失函数的设计可能包括标准的3D目标检测损失函数,以及可能用于增强高度信息利用的辅助损失函数。具体的参数设置和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MambaFusion在nuScenes验证集上取得了75.0的NDS分数,超越了现有的state-of-the-art方法,包括那些使用高分辨率输入的方法。同时,该方法保持了较高的推理速度,比大多数最新的state-of-the-art方法更快。这表明MambaFusion在性能和效率方面都具有显著优势。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能交通等领域。通过更准确、高效地融合相机和激光雷达数据,可以提高3D目标检测的精度和速度,从而增强自动驾驶系统的环境感知能力,提升安全性。未来,该方法可以进一步扩展到其他多模态感知任务中,例如三维重建、场景理解等。

📄 摘要(原文)

We present the first work demonstrating that a pure Mamba block can achieve efficient Dense Global Fusion, meanwhile guaranteeing top performance for camera-LiDAR multi-modal 3D object detection. Our motivation stems from the observation that existing fusion strategies are constrained by their inability to simultaneously achieve efficiency, long-range modeling, and retaining complete scene information. Inspired by recent advances in state-space models (SSMs) and linear attention, we leverage their linear complexity and long-range modeling capabilities to address these challenges. However, this is non-trivial since our experiments reveal that simply adopting efficient linear-complexity methods does not necessarily yield improvements and may even degrade performance. We attribute this degradation to the loss of height information during multi-modal alignment, leading to deviations in sequence order. To resolve this, we propose height-fidelity LiDAR encoding that preserves precise height information through voxel compression in continuous space, thereby enhancing camera-LiDAR alignment. Subsequently, we introduce the Hybrid Mamba Block, which leverages the enriched height-informed features to conduct local and global contextual learning. By integrating these components, our method achieves state-of-the-art performance with the top-tire NDS score of 75.0 on the nuScenes validation benchmark, even surpassing methods that utilize high-resolution inputs. Meanwhile, our method maintains efficiency, achieving faster inference speed than most recent state-of-the-art methods.