M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

📄 arXiv: 2603.16844v1 📥 PDF

作者: Kerui Ren, Guanghao Li, Changjian Jiang, Yingxiang Xu, Tao Lu, Linning Xu, Junting Dong, Jiangmiao Pang, Mulin Yu, Bo Dai

分类: cs.CV

发布日期: 2026-03-17

备注: Project page: https://city-super.github.io/M3/


💡 一句话要点

M^3:融合多视角基础模型与稠密匹配的单目高斯溅射SLAM

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单目SLAM 高斯溅射 多视角基础模型 稠密匹配 场景重建 位姿估计 动态环境

📋 核心要点

  1. 现有单目SLAM方法难以在动态环境中实现高精度位姿估计和高效在线优化。
  2. M^3通过匹配头增强多视角基础模型,实现精细稠密对应,并融入高斯溅射SLAM。
  3. M^3在多个数据集上实现了SOTA的位姿估计和场景重建精度,显著优于现有方法。

📝 摘要(中文)

本文提出M^3,一种结合多视角基础模型和稠密匹配的单目高斯溅射SLAM系统,旨在解决从无标定单目视频流中进行实时重建的挑战。现有方法在动态环境中难以兼顾高精度位姿估计和高效在线优化。M^3通过增加一个匹配头来增强多视角基础模型,以实现精细的稠密对应,并将其集成到鲁棒的单目高斯溅射SLAM中。此外,M^3还结合了动态区域抑制和交叉推理的内参对齐,从而提高了跟踪稳定性。在多个室内外基准测试中,实验结果表明M^3在位姿估计和场景重建方面均达到了最先进的精度。与VGGT-SLAM 2.0相比,M^3的ATE RMSE降低了64.3%,在ScanNet++数据集上,PSNR优于ARTDECO 2.11 dB。

🔬 方法详解

问题定义:论文旨在解决从无标定单目视频流中进行实时场景重建的问题。现有的基于多视角基础模型的SLAM方法,通常依赖前馈方式估计位姿,产生的像素级对应关系精度不足,难以支持严格的几何优化,限制了重建质量。

核心思路:论文的核心思路是利用多视角基础模型提取场景的语义信息,并在此基础上,通过引入一个专门的匹配头来提升像素对应关系的精度。通过更精确的对应关系,可以进行更有效的几何优化,从而提升SLAM系统的整体性能。

技术框架:M^3系统的整体框架包括以下几个主要模块:1) 多视角基础模型:用于提取场景的特征表示。2) 匹配头:用于在特征表示的基础上建立精细的稠密对应关系。3) 高斯溅射SLAM:利用稠密对应关系进行位姿估计和场景重建。4) 动态区域抑制:抑制动态区域对跟踪的影响。5) 交叉推理内参对齐:进一步提升跟踪的稳定性。

关键创新:M^3的关键创新在于将多视角基础模型与稠密匹配相结合,并将其集成到高斯溅射SLAM框架中。通过引入匹配头,显著提升了像素对应关系的精度,克服了传统方法中对应关系精度不足的瓶颈。此外,动态区域抑制和交叉推理内参对齐进一步增强了系统的鲁棒性。

关键设计:匹配头的设计是关键。具体实现细节(如网络结构、损失函数等)论文中可能有所描述。动态区域抑制的具体实现方式,例如基于光流或语义分割等方法来识别和抑制动态区域。交叉推理内参对齐的具体实现方式,例如通过优化内参来最小化重投影误差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

M^3在多个室内外数据集上进行了评估,实验结果表明其在位姿估计和场景重建方面均达到了最先进的水平。具体而言,与VGGT-SLAM 2.0相比,M^3的ATE RMSE降低了64.3%。在ScanNet++数据集上,M^3的PSNR优于ARTDECO 2.11 dB。这些结果表明M^3在精度和鲁棒性方面均具有显著优势。

🎯 应用场景

M^3具有广泛的应用前景,包括增强现实、虚拟现实、机器人导航、三维地图构建等领域。该研究成果可以应用于开发更精确、更鲁棒的单目SLAM系统,从而提升相关应用的性能和用户体验。例如,在AR/VR应用中,可以提供更稳定的跟踪和更逼真的场景重建;在机器人导航中,可以实现更精确的定位和地图构建。

📄 摘要(原文)

Streaming reconstruction from uncalibrated monocular video remains challenging, as it requires both high-precision pose estimation and computationally efficient online refinement in dynamic environments. While coupling 3D foundation models with SLAM frameworks is a promising paradigm, a critical bottleneck persists: most multi-view foundation models estimate poses in a feed-forward manner, yielding pixel-level correspondences that lack the requisite precision for rigorous geometric optimization. To address this, we present M^3, which augments the Multi-view foundation model with a dedicated Matching head to facilitate fine-grained dense correspondences and integrates it into a robust Monocular Gaussian Splatting SLAM. M^3 further enhances tracking stability by incorporating dynamic area suppression and cross-inference intrinsic alignment. Extensive experiments on diverse indoor and outdoor benchmarks demonstrate state-of-the-art accuracy in both pose estimation and scene reconstruction. Notably, M^3 reduces ATE RMSE by 64.3% compared to VGGT-SLAM 2.0 and outperforms ARTDECO by 2.11 dB in PSNR on the ScanNet++ dataset.