MVSMamba: Multi-View Stereo with State Space Model

作者: Jianfei Jiang, Qiankun Liu, Hongyuan Liu, Haochen Yu, Liyong Wang, Jiansheng Chen, Huimin Ma

分类: cs.CV

发布日期: 2025-11-03

备注: Accepted by NeurIPS 2025

🔗 代码/项目: GITHUB

💡 一句话要点

MVSMamba：利用状态空间模型实现高效多视角立体视觉重建

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction & Matching)

关键词: 多视角立体视觉 状态空间模型 Mamba架构 三维重建 深度图估计

📋 核心要点

现有基于Transformer的MVS方法计算复杂度高，难以平衡性能和效率。
MVSMamba利用Mamba架构的线性复杂度和全局建模能力，设计动态Mamba模块，实现高效特征聚合。
实验结果表明，MVSMamba在DTU和Tanks-and-Temples数据集上超越现有SOTA方法，兼顾性能与效率。

📝 摘要（中文）

本文提出了一种基于Mamba架构的多视角立体视觉(MVS)网络MVSMamba，旨在解决现有基于Transformer的MVS方法计算复杂度高的问题。MVSMamba利用Mamba架构的全局建模能力和线性复杂度，实现了高效的全局特征聚合，且计算开销极小。为了充分发挥Mamba在MVS中的潜力，本文设计了一种基于参考视图中心动态扫描策略的动态Mamba模块(DM-module)，该模块能够：（1）实现从参考视图到源视图的高效的视图内和视图间特征交互；（2）生成全向多视图特征表示；（3）进行多尺度全局特征聚合。大量的实验结果表明，MVSMamba在DTU数据集和Tanks-and-Temples基准测试中优于最先进的MVS方法，并在性能和效率方面均表现出色。源代码已在https://github.com/JianfeiJ/MVSMamba公开。

🔬 方法详解

问题定义：现有的基于学习的多视角立体视觉(MVS)方法依赖于精确的特征匹配，而鲁棒的特征表示是关键。Transformer-based MVS方法虽然能够捕获长距离依赖，但其二次方复杂度限制了性能和效率的平衡。因此，如何降低计算复杂度，同时保持全局建模能力，是MVS领域的一个重要挑战。

核心思路：本文的核心思路是利用Mamba架构的线性复杂度和全局建模能力，替代Transformer在MVS网络中的作用。Mamba架构基于状态空间模型(SSM)，能够以线性复杂度建模长序列依赖关系，从而降低计算负担。此外，通过设计动态Mamba模块，能够更好地适应MVS任务的特点，提升特征表示能力。

技术框架：MVSMamba的整体框架包括特征提取、动态Mamba模块和深度图估计三个主要阶段。首先，使用传统的特征金字塔网络提取局部特征。然后，将提取的特征输入到动态Mamba模块中，进行全局特征聚合和视图间特征交互。最后，利用聚合后的特征进行深度图估计。动态Mamba模块是MVSMamba的核心组成部分，它基于参考视图中心动态扫描策略，实现高效的特征交互和全局建模。

关键创新：MVSMamba的关键创新在于将Mamba架构引入MVS领域，并设计了动态Mamba模块。动态Mamba模块通过参考视图中心动态扫描策略，实现了高效的视图内和视图间特征交互，生成全向多视图特征表示，并进行多尺度全局特征聚合。与传统的Transformer-based MVS方法相比，MVSMamba在计算复杂度上具有显著优势，同时保持了良好的性能。

关键设计：动态Mamba模块的关键设计包括：(1) 参考视图中心动态扫描策略：以参考视图为中心，动态调整扫描方向和范围，实现高效的特征交互。(2) 多尺度特征聚合：利用不同尺度的特征进行全局建模，提升特征表示能力。(3) 损失函数：采用深度图回归常用的损失函数，如L1损失或Huber损失。

📊 实验亮点

实验结果表明，MVSMamba在DTU数据集和Tanks-and-Temples基准测试中均取得了优异的性能。在DTU数据集上，MVSMamba的精度和完整性指标均优于现有SOTA方法。在Tanks-and-Temples基准测试中，MVSMamba在保持较高精度的同时，显著降低了计算时间，展现了其在效率方面的优势。

🎯 应用场景

MVSMamba在三维重建领域具有广泛的应用前景，例如：自动驾驶中的环境感知、机器人导航、虚拟现实/增强现实、城市建模、文物数字化等。该研究成果能够提升三维重建的效率和精度，为相关应用提供更可靠的数据支持，并推动相关领域的发展。

📄 摘要（原文）

Robust feature representations are essential for learning-based Multi-View Stereo (MVS), which relies on accurate feature matching. Recent MVS methods leverage Transformers to capture long-range dependencies based on local features extracted by conventional feature pyramid networks. However, the quadratic complexity of Transformer-based MVS methods poses challenges to balance performance and efficiency. Motivated by the global modeling capability and linear complexity of the Mamba architecture, we propose MVSMamba, the first Mamba-based MVS network. MVSMamba enables efficient global feature aggregation with minimal computational overhead. To fully exploit Mamba's potential in MVS, we propose a Dynamic Mamba module (DM-module) based on a novel reference-centered dynamic scanning strategy, which enables: (1) Efficient intra- and inter-view feature interaction from the reference to source views, (2) Omnidirectional multi-view feature representations, and (3) Multi-scale global feature aggregation. Extensive experimental results demonstrate MVSMamba outperforms state-of-the-art MVS methods on the DTU dataset and the Tanks-and-Temples benchmark with both superior performance and efficiency. The source code is available at https://github.com/JianfeiJ/MVSMamba.

MVSMamba: Multi-View Stereo with State Space Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册