CoMo3R-SLAM: Collaborative Monocular Dense SLAM with Learned 3D Reconstruction Priors for Outdoor Multi-Agent Systems
作者: Zhihao Cao, Qi Shao, Shuhao Zhai, Feng Tian, Anh Nguyen, Hesheng Wang, Baoru Huang
分类: cs.RO
发布日期: 2026-05-28
💡 一句话要点
CoMo3R-SLAM:面向户外多智能体系统的协同单目稠密SLAM,利用学习的3D重建先验
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 协同SLAM 单目视觉 稠密重建 多智能体系统 3D重建先验
📋 核心要点
- 现有协同稠密SLAM系统依赖深度传感器,增加了有效载荷、功耗和标定成本,而单目RGB相机是一种轻量级替代方案。
- CoMo3R-SLAM利用学习的3D重建先验,为每个智能体提供鲁棒的几何信息,从而解决户外场景中数据关联不可靠的问题。
- 实验结果表明,CoMo3R-SLAM在Tanks and Temples和Waymo数据集上取得了优异的精度,且能以8 FPS在线运行。
📝 摘要(中文)
本文提出CoMo3R-SLAM,首个协同单目稠密RGB SLAM系统,利用学习的3D重建先验,实现户外多智能体环境下的鲁棒地图构建。每个智能体运行先验引导的前端,进行实时跟踪和局部稠密融合。协调器执行稠密点云匹配,用于跨智能体验证和闭式Sim(3)位姿同步,并使用GPU加速的全局Bundle Adjustment,进行分割级别的深度优化。该系统无需深度传感器和参数化内参,仅使用单目RGB图像即可生成鲁棒的跨智能体约束和全局一致的度量地图。在Tanks and Temples和Waymo数据集上,CoMo3R-SLAM在四个Tanks and Temples场景中的三个上实现了最佳ATE,并在Waymo上获得了具有竞争力的精度,在8 FPS下在线运行,性能匹配或超过了最先进的RGB-D方法。
🔬 方法详解
问题定义:现有的多智能体协同稠密SLAM系统通常依赖于深度传感器,这增加了系统的重量、功耗和标定难度,限制了其在资源受限的户外环境中的应用。单目视觉虽然轻量,但在户外场景中,由于低重叠度和重复结构,导致跨智能体的数据关联变得不可靠,尺度漂移问题也难以解决。因此,如何在仅使用单目RGB图像的情况下,实现鲁棒且全局一致的多智能体协同稠密SLAM是一个挑战。
核心思路:CoMo3R-SLAM的核心思路是利用学习的3D重建先验知识来增强单目SLAM的鲁棒性。通过学习到的先验,系统可以更好地理解场景的几何结构,从而在数据关联和位姿估计中减少误差。此外,系统采用协同的方式,利用多个智能体的信息来相互验证和校正,从而提高整体的精度和鲁棒性。
技术框架:CoMo3R-SLAM包含两个主要部分:智能体端和协调器。每个智能体运行一个先验引导的前端,用于实时跟踪和局部稠密融合,生成局部地图。协调器负责接收来自各个智能体的局部地图,进行稠密点云匹配,用于跨智能体验证。然后,协调器执行闭式Sim(3)位姿同步,并使用GPU加速的全局Bundle Adjustment,进行分割级别的深度优化,最终生成全局一致的地图。
关键创新:CoMo3R-SLAM的关键创新在于将学习的3D重建先验知识引入到协同单目稠密SLAM中。这种方法使得系统能够在没有深度传感器的情况下,也能获得较为准确的几何信息,从而提高了系统的鲁棒性和精度。此外,系统还提出了基于稠密点云匹配的跨智能体验证方法,以及分割级别的深度优化策略,进一步提高了地图的质量。
关键设计:系统使用一个学习到的3D重建模型作为先验,该模型可以预测场景的深度和表面法线。在前端,系统利用这些先验信息来约束位姿估计和稠密重建过程。在后端,系统使用稠密点云匹配来建立跨智能体的约束,并使用Bundle Adjustment来优化所有智能体的位姿和地图。分割级别的深度优化是指将场景分割成不同的区域,并对每个区域的深度进行单独优化,从而更好地处理场景中的深度不连续性。
🖼️ 关键图片
📊 实验亮点
CoMo3R-SLAM在Tanks and Temples数据集上,在四个场景中的三个上实现了最佳的ATE(Absolute Trajectory Error),表明其在重建精度方面具有显著优势。在Waymo数据集上,CoMo3R-SLAM也获得了具有竞争力的精度,与最先进的RGB-D方法相当。值得注意的是,CoMo3R-SLAM能够在8 FPS下在线运行,满足了实时应用的需求。
🎯 应用场景
CoMo3R-SLAM在多机器人协同探索、环境监测、灾害救援等领域具有广泛的应用前景。例如,在大型仓库中,多个机器人可以利用该系统协同构建地图,实现高效的导航和货物管理。在灾害现场,多个无人机可以利用该系统协同构建三维模型,为救援人员提供更全面的信息。该研究有望推动多智能体系统在复杂环境中的应用。
📄 摘要(原文)
Collaborative dense SLAM is essential for multi-robot teams to achieve scalable and consistent 3D perception across large-scale outdoor environments. Existing systems typically depend on depth sensors, incurring significant payload, power, and calibration costs. Monocular RGB cameras are a lightweight alternative, but collaborative monocular dense SLAM remains difficult due to scale ambiguity, unreliable inter-agent data association, especially in outdoor scenes where low overlap and repetitive structures make traditional feature matching unreliable, motivating robust geometric information. We propose CoMo3R-SLAM, the first collaborative monocular dense RGB SLAM system that leverages robust learned feed-forward 3D reconstruction priors for outdoor multi-agent mapping. Each agent runs a prior-guided front-end for real-time tracking and local dense fusion, while a coordinator performs dense pointmap matching for cross-agent verification, closed-form Sim(3) gauge synchronization, and GPU-accelerated global bundle adjustment with segment-level depth optimization. Requiring neither depth sensors nor parametric intrinsics, our system produces robust cross-agent constraints and globally consistent metric maps from monocular RGB alone. On Tanks and Temples and Waymo sequences, CoMo3R-SLAM achieves the best ATE on three of four Tanks and Temples scenes and competitive Waymo accuracy, matching or exceeding state-of-the-art RGB-D methods while running online at 8 FPS.