MAGS-SLAM: Monocular Multi-Agent Gaussian Splatting SLAM for Geometrically and Photometrically Consistent Reconstruction

📄 arXiv: 2605.10760v1 📥 PDF

作者: Zhihao Cao, Qi Shao, Shuhao Zhai, Jing Zhang, Anh Nguyen, Baoru Huang

分类: cs.RO

发布日期: 2026-05-11


💡 一句话要点

提出MAGS-SLAM:首个基于单目视觉的多智能体3D高斯溅射SLAM框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 协同SLAM 单目视觉 多智能体系统 三维重建 实时建图

📋 核心要点

  1. 现有协同SLAM多依赖RGB-D传感器获取深度,导致系统对硬件要求高,难以在轻量化、低成本的机器人平台上部署。
  2. 提出MAGS-SLAM框架,通过单目视觉构建局部高斯子图,并仅交换紧凑的子图摘要,有效降低了通信带宽需求。
  3. 引入几何与外观感知的闭环验证及占用感知融合机制,在无需主动深度传感器的情况下,实现了高精度的全局一致性重建。

📝 摘要(中文)

多智能体协同三维重建在虚拟制片与机器人协同探索中具有重要价值。尽管现有的3D高斯溅射(3DGS)SLAM算法能实现高保真实时建图,但多数方法依赖RGB-D传感器获取度量深度以简化跨智能体对齐,限制了其在轻量化、低成本或功耗受限平台上的部署。为此,本文提出MAGS-SLAM,这是首个仅依赖RGB输入的多智能体3DGS SLAM框架。各智能体独立构建局部单目高斯子图,并仅传输紧凑的子图摘要而非原始观测。为解决单目尺度模糊性,框架集成了子图通信、几何与外观感知的闭环验证以及占用感知的高斯融合技术,实现了无需主动深度传感器的全局一致性重建。此外,本文还引入了ReplicaMultiagent Plus基准测试。实验表明,MAGS-SLAM在仅使用RGB图像的情况下,实现了与现有RGB-D协同SLAM方法相当甚至更优的跟踪精度与渲染质量。

🔬 方法详解

问题定义:论文旨在解决多智能体协同建图中的“深度依赖”痛点。现有方法依赖RGB-D传感器获取精确深度以简化跨智能体对齐,这限制了系统在轻量化、低功耗机器人平台上的应用场景。

核心思路:采用分布式架构,每个智能体独立构建局部单目高斯子图,通过传输紧凑的子图摘要而非原始数据,实现高效的协同重建。核心在于通过几何与外观约束解决单目尺度模糊性,并利用占用感知融合实现全局一致性。

技术框架:系统包含局部建图模块、子图通信模块、闭环检测与验证模块,以及全局高斯融合模块。各智能体利用单目视觉进行位姿估计与高斯建模,通过特征匹配进行闭环检测,最后通过占用感知策略将局部子图合并为全局地图。

关键创新:MAGS-SLAM是首个纯RGB的多智能体3DGS SLAM系统。其创新点在于将3DGS的显式表示与分布式协同SLAM结合,通过几何与外观感知的闭环验证,在缺乏深度信息的情况下实现了跨智能体的尺度对齐与地图融合。

关键设计:引入了占用感知(Occupancy-aware)的高斯融合策略,通过显式建模空间占用情况,有效解决了多智能体地图合并时的重叠与冲突问题;同时设计了紧凑的子图摘要传输协议,显著降低了多智能体协同过程中的通信开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MAGS-SLAM在ReplicaMultiagent Plus基准上表现卓越。在仅使用RGB输入的情况下,其跟踪精度与渲染质量均达到或超过了现有的RGB-D协同SLAM基线方法,证明了该框架在处理单目尺度模糊性与多智能体协同融合方面的有效性。

🎯 应用场景

该技术适用于轻量化无人机群、低成本移动机器人协同探索及虚拟制片场景。在资源受限的边缘计算设备上,MAGS-SLAM能够实现高保真的实时三维场景重建,为机器人自主导航、远程协作及数字孪生构建提供了高效、低成本的解决方案。

📄 摘要(原文)

Collaborative photorealistic 3D reconstruction from multiple agents enables rapid large-scale scene capture for virtual production and cooperative multi-robot exploration. While recent 3D Gaussian Splatting (3DGS) SLAM algorithms can generate high-fidelity real-time mapping, most of the existing multi-agent Gaussian SLAM methods still rely on RGB-D sensors to obtain metric depth and simplify cross-agent alignment, which limits the deployment on lightweight, low-cost, or power-constrained robotic platforms. To address this challenge, we propose MAGS-SLAM, the first RGB-only multi-agent 3DGS SLAM framework for collaborative scene reconstruction. Each agent independently builds local monocular Gaussian submaps and transmits compact submap summaries rather than raw observations or dense maps. To facilitate robust collaboration in the presence of monocular scale ambiguity, our framework integrates compact submap communication, geometry- and appearance-aware loop verification, and occupancy-aware Gaussian fusion, enabling coherent global reconstruction without active depth sensors. We further introduce ReplicaMultiagent Plus benchmark for evaluating collaborative Gaussian SLAM. Intensive experiments on synthetic and real-world datasets show that MAGS-SLAM achieves competitive tracking accuracy and comparable or superior rendering quality to state-of-the-art RGB-D collaborative Gaussian SLAM methods while relying only RGB images.