CoMo3R-SLAM: Collaborative Monocular Dense SLAM with Learned 3D Reconstruction Priors for Outdoor Multi-Agent Systems

作者: Zhihao Cao, Qi Shao, Shuhao Zhai, Feng Tian, Anh Nguyen, Hesheng Wang, Baoru Huang

分类: cs.RO

发布日期: 2026-05-28

💡 一句话要点

CoMo3R-SLAM：面向户外多智能体系统的协同单目稠密SLAM，利用学习的3D重建先验

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 协同SLAM 单目视觉 稠密重建 多智能体系统 3D重建先验

📋 核心要点

现有协同稠密SLAM系统依赖深度传感器，增加了有效载荷、功耗和标定成本，而单目RGB相机是一种轻量级替代方案。
CoMo3R-SLAM利用学习的3D重建先验，为每个智能体提供鲁棒的几何信息，从而解决户外场景中数据关联不可靠的问题。
实验结果表明，CoMo3R-SLAM在Tanks and Temples和Waymo数据集上取得了优异的精度，且能以8 FPS在线运行。

📝 摘要（中文）

本文提出CoMo3R-SLAM，首个协同单目稠密RGB SLAM系统，利用学习的3D重建先验，实现户外多智能体环境下的鲁棒地图构建。每个智能体运行先验引导的前端，进行实时跟踪和局部稠密融合。协调器执行稠密点云匹配，用于跨智能体验证和闭式Sim(3)位姿同步，并使用GPU加速的全局Bundle Adjustment，进行分割级别的深度优化。该系统无需深度传感器和参数化内参，仅使用单目RGB图像即可生成鲁棒的跨智能体约束和全局一致的度量地图。在Tanks and Temples和Waymo数据集上，CoMo3R-SLAM在四个Tanks and Temples场景中的三个上实现了最佳ATE，并在Waymo上获得了具有竞争力的精度，在8 FPS下在线运行，性能匹配或超过了最先进的RGB-D方法。

🔬 方法详解

问题定义：现有的多智能体协同稠密SLAM系统通常依赖于深度传感器，这增加了系统的重量、功耗和标定难度，限制了其在资源受限的户外环境中的应用。单目视觉虽然轻量，但在户外场景中，由于低重叠度和重复结构，导致跨智能体的数据关联变得不可靠，尺度漂移问题也难以解决。因此，如何在仅使用单目RGB图像的情况下，实现鲁棒且全局一致的多智能体协同稠密SLAM是一个挑战。

核心思路：CoMo3R-SLAM的核心思路是利用学习的3D重建先验知识来增强单目SLAM的鲁棒性。通过学习到的先验，系统可以更好地理解场景的几何结构，从而在数据关联和位姿估计中减少误差。此外，系统采用协同的方式，利用多个智能体的信息来相互验证和校正，从而提高整体的精度和鲁棒性。

技术框架：CoMo3R-SLAM包含两个主要部分：智能体端和协调器。每个智能体运行一个先验引导的前端，用于实时跟踪和局部稠密融合，生成局部地图。协调器负责接收来自各个智能体的局部地图，进行稠密点云匹配，用于跨智能体验证。然后，协调器执行闭式Sim(3)位姿同步，并使用GPU加速的全局Bundle Adjustment，进行分割级别的深度优化，最终生成全局一致的地图。

关键创新：CoMo3R-SLAM的关键创新在于将学习的3D重建先验知识引入到协同单目稠密SLAM中。这种方法使得系统能够在没有深度传感器的情况下，也能获得较为准确的几何信息，从而提高了系统的鲁棒性和精度。此外，系统还提出了基于稠密点云匹配的跨智能体验证方法，以及分割级别的深度优化策略，进一步提高了地图的质量。

关键设计：系统使用一个学习到的3D重建模型作为先验，该模型可以预测场景的深度和表面法线。在前端，系统利用这些先验信息来约束位姿估计和稠密重建过程。在后端，系统使用稠密点云匹配来建立跨智能体的约束，并使用Bundle Adjustment来优化所有智能体的位姿和地图。分割级别的深度优化是指将场景分割成不同的区域，并对每个区域的深度进行单独优化，从而更好地处理场景中的深度不连续性。

🖼️ 关键图片

📊 实验亮点

CoMo3R-SLAM在Tanks and Temples数据集上，在四个场景中的三个上实现了最佳的ATE（Absolute Trajectory Error），表明其在重建精度方面具有显著优势。在Waymo数据集上，CoMo3R-SLAM也获得了具有竞争力的精度，与最先进的RGB-D方法相当。值得注意的是，CoMo3R-SLAM能够在8 FPS下在线运行，满足了实时应用的需求。

🎯 应用场景

CoMo3R-SLAM在多机器人协同探索、环境监测、灾害救援等领域具有广泛的应用前景。例如，在大型仓库中，多个机器人可以利用该系统协同构建地图，实现高效的导航和货物管理。在灾害现场，多个无人机可以利用该系统协同构建三维模型，为救援人员提供更全面的信息。该研究有望推动多智能体系统在复杂环境中的应用。

📄 摘要（原文）

Collaborative dense SLAM is essential for multi-robot teams to achieve scalable and consistent 3D perception across large-scale outdoor environments. Existing systems typically depend on depth sensors, incurring significant payload, power, and calibration costs. Monocular RGB cameras are a lightweight alternative, but collaborative monocular dense SLAM remains difficult due to scale ambiguity, unreliable inter-agent data association, especially in outdoor scenes where low overlap and repetitive structures make traditional feature matching unreliable, motivating robust geometric information. We propose CoMo3R-SLAM, the first collaborative monocular dense RGB SLAM system that leverages robust learned feed-forward 3D reconstruction priors for outdoor multi-agent mapping. Each agent runs a prior-guided front-end for real-time tracking and local dense fusion, while a coordinator performs dense pointmap matching for cross-agent verification, closed-form Sim(3) gauge synchronization, and GPU-accelerated global bundle adjustment with segment-level depth optimization. Requiring neither depth sensors nor parametric intrinsics, our system produces robust cross-agent constraints and globally consistent metric maps from monocular RGB alone. On Tanks and Temples and Waymo sequences, CoMo3R-SLAM achieves the best ATE on three of four Tanks and Temples scenes and competitive Waymo accuracy, matching or exceeding state-of-the-art RGB-D methods while running online at 8 FPS.

CoMo3R-SLAM: Collaborative Monocular Dense SLAM with Learned 3D Reconstruction Priors for Outdoor Multi-Agent Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理