MambaFusion: Height-Fidelity Dense Global Fusion for Multi-modal 3D Object Detection

作者: Hanshi Wang, Jin Gao, Weiming Hu, Zhipeng Zhang

分类: cs.CV

发布日期: 2025-07-06

备注: 10 pages

期刊: ICCV 2025

💡 一句话要点

MambaFusion：提出一种高效的高度保真稠密全局融合方法，用于多模态3D目标检测。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多模态融合 3D目标检测 相机-激光雷达 Mamba 状态空间模型 高度保真编码 全局融合

📋 核心要点

现有融合方法难以兼顾效率、长程建模和完整场景信息，限制了多模态3D目标检测的性能。
提出高度保真激光雷达编码和混合Mamba块，分别解决高度信息丢失和上下文建模不足的问题。
在nuScenes验证集上达到75.0的NDS，超越现有方法，同时保持较高的推理速度。

📝 摘要（中文）

本文提出了一种纯Mamba块实现高效稠密全局融合的方法，同时保证相机-激光雷达多模态3D目标检测的顶级性能。现有融合策略在效率、长程建模和保留完整场景信息方面存在局限性。受状态空间模型（SSMs）和线性注意力的启发，本文利用它们的线性复杂度和长程建模能力来解决这些挑战。然而，简单地采用高效的线性复杂度方法并不一定能带来改进，甚至可能降低性能。这种性能下降归因于多模态对齐过程中高度信息的丢失，导致序列顺序的偏差。为了解决这个问题，本文提出了高度保真激光雷达编码，通过在连续空间中进行体素压缩来保留精确的高度信息，从而增强相机-激光雷达的对齐。随后，本文引入了混合Mamba块，利用丰富的高度信息特征来进行局部和全局上下文学习。通过整合这些组件，该方法在nuScenes验证基准上实现了75.0的顶级NDS分数，甚至超过了使用高分辨率输入的方法。同时，该方法保持了效率，实现了比大多数最新的state-of-the-art方法更快的推理速度。

🔬 方法详解

问题定义：现有的多模态3D目标检测方法在融合相机和激光雷达数据时，难以同时保证效率、长程依赖建模和完整场景信息的保留。特别是，直接应用线性复杂度的模型可能导致性能下降，因为在多模态对齐过程中会丢失重要的高度信息，从而影响序列的正确排序。

核心思路：本文的核心思路是通过保留高度信息来改善多模态对齐，并利用Mamba架构进行高效的全局上下文建模。具体来说，首先通过高度保真激光雷达编码来保留精确的高度信息，然后使用混合Mamba块来学习局部和全局的上下文关系。

技术框架：MambaFusion的整体框架包括以下几个主要阶段：1) 激光雷达数据的高度保真编码，将三维点云压缩成保留高度信息的特征表示；2) 相机图像特征提取；3) 多模态特征融合，使用混合Mamba块对编码后的激光雷达特征和相机特征进行融合；4) 3D目标检测头，用于预测3D bounding box。

关键创新：该方法最重要的技术创新在于：1) 提出了高度保真激光雷达编码，通过在连续空间中进行体素压缩，有效地保留了高度信息，从而改善了相机-激光雷达的对齐；2) 引入了混合Mamba块，该模块能够同时进行局部和全局的上下文学习，从而更好地利用多模态信息。与现有方法相比，MambaFusion能够在保证效率的同时，更好地保留和利用高度信息，从而提升检测性能。

关键设计：高度保真激光雷达编码的关键在于体素压缩的方式，具体实现细节未知。混合Mamba块的设计可能包括对Mamba块结构的修改，使其能够同时处理局部和全局的上下文信息。损失函数的设计可能包括标准的3D目标检测损失函数，以及可能用于增强高度信息利用的辅助损失函数。具体的参数设置和网络结构细节未知。

🖼️ 关键图片

📊 实验亮点

MambaFusion在nuScenes验证集上取得了75.0的NDS分数，超越了现有的state-of-the-art方法，包括那些使用高分辨率输入的方法。同时，该方法保持了较高的推理速度，比大多数最新的state-of-the-art方法更快。这表明MambaFusion在性能和效率方面都具有显著优势。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能交通等领域。通过更准确、高效地融合相机和激光雷达数据，可以提高3D目标检测的精度和速度，从而增强自动驾驶系统的环境感知能力，提升安全性。未来，该方法可以进一步扩展到其他多模态感知任务中，例如三维重建、场景理解等。

📄 摘要（原文）

We present the first work demonstrating that a pure Mamba block can achieve efficient Dense Global Fusion, meanwhile guaranteeing top performance for camera-LiDAR multi-modal 3D object detection. Our motivation stems from the observation that existing fusion strategies are constrained by their inability to simultaneously achieve efficiency, long-range modeling, and retaining complete scene information. Inspired by recent advances in state-space models (SSMs) and linear attention, we leverage their linear complexity and long-range modeling capabilities to address these challenges. However, this is non-trivial since our experiments reveal that simply adopting efficient linear-complexity methods does not necessarily yield improvements and may even degrade performance. We attribute this degradation to the loss of height information during multi-modal alignment, leading to deviations in sequence order. To resolve this, we propose height-fidelity LiDAR encoding that preserves precise height information through voxel compression in continuous space, thereby enhancing camera-LiDAR alignment. Subsequently, we introduce the Hybrid Mamba Block, which leverages the enriched height-informed features to conduct local and global contextual learning. By integrating these components, our method achieves state-of-the-art performance with the top-tire NDS score of 75.0 on the nuScenes validation benchmark, even surpassing methods that utilize high-resolution inputs. Meanwhile, our method maintains efficiency, achieving faster inference speed than most recent state-of-the-art methods.

MambaFusion: Height-Fidelity Dense Global Fusion for Multi-modal 3D Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理