M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

作者: Kerui Ren, Guanghao Li, Changjian Jiang, Yingxiang Xu, Tao Lu, Linning Xu, Junting Dong, Jiangmiao Pang, Mulin Yu, Bo Dai

分类: cs.CV

发布日期: 2026-03-17

备注: Project page: https://city-super.github.io/M3/

💡 一句话要点

M^3：融合多视角基础模型与稠密匹配的单目高斯溅射SLAM

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单目SLAM 高斯溅射 多视角基础模型 稠密匹配 场景重建 位姿估计 动态环境

📋 核心要点

现有单目SLAM方法难以在动态环境中实现高精度位姿估计和高效在线优化。
M^3通过匹配头增强多视角基础模型，实现精细稠密对应，并融入高斯溅射SLAM。
M^3在多个数据集上实现了SOTA的位姿估计和场景重建精度，显著优于现有方法。

📝 摘要（中文）

本文提出M^3，一种结合多视角基础模型和稠密匹配的单目高斯溅射SLAM系统，旨在解决从无标定单目视频流中进行实时重建的挑战。现有方法在动态环境中难以兼顾高精度位姿估计和高效在线优化。M^3通过增加一个匹配头来增强多视角基础模型，以实现精细的稠密对应，并将其集成到鲁棒的单目高斯溅射SLAM中。此外，M^3还结合了动态区域抑制和交叉推理的内参对齐，从而提高了跟踪稳定性。在多个室内外基准测试中，实验结果表明M^3在位姿估计和场景重建方面均达到了最先进的精度。与VGGT-SLAM 2.0相比，M^3的ATE RMSE降低了64.3%，在ScanNet++数据集上，PSNR优于ARTDECO 2.11 dB。

🔬 方法详解

问题定义：论文旨在解决从无标定单目视频流中进行实时场景重建的问题。现有的基于多视角基础模型的SLAM方法，通常依赖前馈方式估计位姿，产生的像素级对应关系精度不足，难以支持严格的几何优化，限制了重建质量。

核心思路：论文的核心思路是利用多视角基础模型提取场景的语义信息，并在此基础上，通过引入一个专门的匹配头来提升像素对应关系的精度。通过更精确的对应关系，可以进行更有效的几何优化，从而提升SLAM系统的整体性能。

技术框架：M^3系统的整体框架包括以下几个主要模块：1) 多视角基础模型：用于提取场景的特征表示。2) 匹配头：用于在特征表示的基础上建立精细的稠密对应关系。3) 高斯溅射SLAM：利用稠密对应关系进行位姿估计和场景重建。4) 动态区域抑制：抑制动态区域对跟踪的影响。5) 交叉推理内参对齐：进一步提升跟踪的稳定性。

关键创新：M^3的关键创新在于将多视角基础模型与稠密匹配相结合，并将其集成到高斯溅射SLAM框架中。通过引入匹配头，显著提升了像素对应关系的精度，克服了传统方法中对应关系精度不足的瓶颈。此外，动态区域抑制和交叉推理内参对齐进一步增强了系统的鲁棒性。

关键设计：匹配头的设计是关键。具体实现细节（如网络结构、损失函数等）论文中可能有所描述。动态区域抑制的具体实现方式，例如基于光流或语义分割等方法来识别和抑制动态区域。交叉推理内参对齐的具体实现方式，例如通过优化内参来最小化重投影误差。

🖼️ 关键图片

📊 实验亮点

M^3在多个室内外数据集上进行了评估，实验结果表明其在位姿估计和场景重建方面均达到了最先进的水平。具体而言，与VGGT-SLAM 2.0相比，M^3的ATE RMSE降低了64.3%。在ScanNet++数据集上，M^3的PSNR优于ARTDECO 2.11 dB。这些结果表明M^3在精度和鲁棒性方面均具有显著优势。

🎯 应用场景

M^3具有广泛的应用前景，包括增强现实、虚拟现实、机器人导航、三维地图构建等领域。该研究成果可以应用于开发更精确、更鲁棒的单目SLAM系统，从而提升相关应用的性能和用户体验。例如，在AR/VR应用中，可以提供更稳定的跟踪和更逼真的场景重建；在机器人导航中，可以实现更精确的定位和地图构建。

📄 摘要（原文）

Streaming reconstruction from uncalibrated monocular video remains challenging, as it requires both high-precision pose estimation and computationally efficient online refinement in dynamic environments. While coupling 3D foundation models with SLAM frameworks is a promising paradigm, a critical bottleneck persists: most multi-view foundation models estimate poses in a feed-forward manner, yielding pixel-level correspondences that lack the requisite precision for rigorous geometric optimization. To address this, we present M^3, which augments the Multi-view foundation model with a dedicated Matching head to facilitate fine-grained dense correspondences and integrates it into a robust Monocular Gaussian Splatting SLAM. M^3 further enhances tracking stability by incorporating dynamic area suppression and cross-inference intrinsic alignment. Extensive experiments on diverse indoor and outdoor benchmarks demonstrate state-of-the-art accuracy in both pose estimation and scene reconstruction. Notably, M^3 reduces ATE RMSE by 64.3% compared to VGGT-SLAM 2.0 and outperforms ARTDECO by 2.11 dB in PSNR on the ScanNet++ dataset.

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理