Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM

📄 arXiv: 2604.03092 📥 PDF

作者: Zicheng Zhang, Ke Wu, Xiangting Meng, Keyu Liu, Jieru Zhao, Wenchao Ding

分类: cs.RO

发布日期: 2026-04-06


💡 一句话要点

Flash-Mono:基于前馈加速高斯溅射的单目SLAM,显著提升效率与精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目SLAM 高斯溅射 前馈网络 循环神经网络 实时重建

📋 核心要点

  1. 现有单目3D高斯溅射SLAM方法效率低、精度差,且缺乏多视角一致性,主要瓶颈在于耗时的优化过程。
  2. Flash-Mono采用前馈预测范式,直接从多帧图像预测高斯属性,避免了逐帧优化,显著提升了效率。
  3. Flash-Mono通过循环神经网络聚合多帧信息,并使用2D高斯surfel提升几何精度,实验表明其性能优于现有方法。

📝 摘要(中文)

单目3D高斯溅射SLAM在时间效率、几何精度和多视角一致性方面存在严重局限。这些问题源于耗时的“从零开始训练”优化以及单帧几何先验缺乏帧间尺度一致性。我们认为,利用多帧上下文直接预测高斯属性的前馈范式对于解决这些挑战至关重要。我们提出了Flash-Mono,一个由三个核心模块组成的系统:前馈预测前端、2D高斯溅射映射后端以及高效的基于隐藏状态的闭环检测模块。我们训练了一个循环前馈前端模型,通过交叉注意力将多帧视觉特征逐步聚合到隐藏状态中,并联合预测相机姿态和逐像素高斯属性。通过直接预测高斯属性,我们的方法绕过了基于优化的GS-SLAM中繁琐的逐帧优化,实现了10倍的加速,同时确保了高质量的渲染。循环架构的强大之处不仅在于高效预测。隐藏状态充当紧凑的子图描述符,有助于高效的闭环检测和全局Sim(3)优化,以缓解长期存在的漂移问题。为了提高几何保真度,我们用2D高斯surfel取代了传统的3D高斯椭球。大量实验表明,Flash-Mono在跟踪和映射质量方面均实现了最先进的性能,突显了其在具身感知和实时重建应用中的潜力。

🔬 方法详解

问题定义:现有基于优化的单目3D高斯溅射SLAM方法,如Gaussian Splatting SLAM,需要对每一帧进行耗时的优化,导致效率低下,难以满足实时性要求。此外,单帧几何先验缺乏帧间尺度一致性,影响了重建的几何精度和多视角一致性。

核心思路:Flash-Mono的核心思路是采用前馈预测范式,直接从多帧图像中预测高斯属性,而不是像传统方法那样进行迭代优化。通过训练一个循环神经网络,将多帧视觉特征聚合到隐藏状态中,并利用该隐藏状态预测相机姿态和高斯属性,从而避免了耗时的逐帧优化。

技术框架:Flash-Mono系统包含三个主要模块:1) 前馈预测前端:使用循环神经网络从多帧图像中预测相机姿态和高斯属性。2) 2D高斯溅射映射后端:使用预测的高斯属性构建2D高斯surfel地图。3) 基于隐藏状态的闭环检测模块:利用循环神经网络的隐藏状态作为子图描述符,进行高效的闭环检测和全局Sim(3)优化。

关键创新:Flash-Mono最重要的创新点在于其前馈预测范式,它将传统的基于优化的SLAM方法转变为基于学习的方法,从而显著提高了效率。此外,使用循环神经网络聚合多帧信息,并使用2D高斯surfel代替3D高斯椭球,也有助于提高几何精度和多视角一致性。

关键设计:前馈预测前端使用交叉注意力机制将多帧视觉特征聚合到隐藏状态中。循环神经网络的具体结构(如GRU或LSTM)未知。损失函数的设计可能包括相机姿态预测损失、高斯属性预测损失以及渲染损失。2D高斯surfel的具体参数化方式未知,但可能包括位置、法向量、颜色、透明度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Flash-Mono实现了10倍于传统基于优化的高斯溅射SLAM方法的加速,同时保持了高质量的渲染效果。在跟踪和映射质量方面,Flash-Mono也取得了state-of-the-art的性能。具体的数据指标和对比基线在论文中未明确给出,需要查阅原文。

🎯 应用场景

Flash-Mono在机器人导航、增强现实、虚拟现实、三维重建等领域具有广泛的应用前景。其高效的实时重建能力使其能够应用于需要快速环境感知的场景,例如无人机自主导航、移动机器人SLAM等。此外,高质量的渲染效果也使其适用于需要逼真视觉体验的应用,例如虚拟现实游戏、增强现实应用等。

📄 摘要(原文)

Monocular 3D Gaussian Splatting SLAM suffers from critical limitations in time efficiency, geometric accuracy, and multi-view consistency. These issues stem from the time-consuming $\textit{Train-from-Scratch}$ optimization and the lack of inter-frame scale consistency from single-frame geometry priors. We contend that a feed-forward paradigm, leveraging multi-frame context to predict Gaussian attributes directly, is crucial for addressing these challenges. We present Flash-Mono, a system composed of three core modules: a feed-forward prediction frontend, a 2D Gaussian Splatting mapping backend, and an efficient hidden-state-based loop closure module. We trained a recurrent feed-forward frontend model that progressively aggregates multi-frame visual features into a hidden state via cross attention and jointly predicts camera poses and per-pixel Gaussian properties. By directly predicting Gaussian attributes, our method bypasses the burdensome per-frame optimization required in optimization-based GS-SLAM, achieving a $\textbf{10x}$ speedup while ensuring high-quality rendering. The power of our recurrent architecture extends beyond efficient prediction. The hidden states act as compact submap descriptors, facilitating efficient loop closure and global $\mathrm{Sim}(3)$ optimization to mitigate the long-standing challenge of drift. For enhanced geometric fidelity, we replace conventional 3D Gaussian ellipsoids with 2D Gaussian surfels. Extensive experiments demonstrate that Flash-Mono achieves state-of-the-art performance in both tracking and mapping quality, highlighting its potential for embodied perception and real-time reconstruction applications. Project page:this https URL.