MR.ScaleMaster: Scale-Consistent Collaborative Mapping from Crowd-Sourced Monocular Videos

作者: Hyoseok Ju, Giseop Kim

分类: cs.RO

发布日期: 2026-04-13

备注: 8 pages, 7 figures, submitted to IROS 2026

💡 一句话要点

MR.ScaleMaster：解决众包单目视频协作建图中的尺度漂移与崩溃问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 众包建图 单目视觉 尺度一致性 Sim(3)优化 协作SLAM

📋 核心要点

现有众包单目视觉协作建图易受尺度崩溃和尺度漂移影响，限制了其在复杂环境中的应用。
MR.ScaleMaster通过尺度崩溃警报、Sim(3)锚节点和模块化接口，实现了鲁棒且可扩展的协作建图。
实验表明，该方法在KITTI数据集上显著降低了位姿误差，并成功融合了多种异构SLAM系统。

📝 摘要（中文）

本文提出MR.ScaleMaster，一个用于众包单目视频的协作建图系统，旨在解决尺度相关的两个主要问题：重复环境中因错误闭环检测导致的突发尺度崩溃，以及长轨迹上的渐进尺度漂移和多机器人间的尺度模糊，这些问题阻碍了直接的多会话融合。MR.ScaleMaster引入了三个关键机制。首先，尺度崩溃警报在错误闭环破坏位姿图之前将其拒绝。其次，Sim(3)锚节点公式推广了经典的SE(3)框架，显式估计每个会话的尺度，从而解决机器人间的尺度模糊并强制执行全局尺度一致性。第三，模块化、开源、即插即用接口使任何单目重建模型都可以在不修改后端的情况下集成。在最多15个代理的KITTI序列上，Sim(3)公式相比SE(3)基线实现了7.2倍的ATE降低，并且警报拒绝了所有假阳性闭环，同时保留了每个有效约束。此外，我们还展示了异构多机器人稠密建图，将MASt3R-SLAM、pi3和VGGT-SLAM 2.0融合到单个统一地图中。

🔬 方法详解

问题定义：现有的众包单目视觉协作建图方法在重复场景中容易出现由于错误的闭环检测导致的尺度崩溃问题，并且在长时间的轨迹中会产生尺度漂移。此外，不同机器人之间的尺度不一致性也阻碍了多会话数据的直接融合。这些问题限制了单目视觉在更大规模、更复杂环境下的应用。

核心思路：MR.ScaleMaster的核心思路是通过引入尺度崩溃警报机制来防止错误的闭环检测对位姿图产生破坏，并利用Sim(3)锚节点公式来显式地估计每个会话的尺度，从而解决机器人间的尺度模糊问题，并保证全局尺度的一致性。这种设计使得系统能够更加鲁棒地处理尺度不确定性，并实现多机器人之间的有效协作。

技术框架：MR.ScaleMaster系统主要包含三个模块：单目重建模块（支持即插即用），位姿图优化模块，以及尺度一致性维护模块。单目重建模块负责从每个机器人的视频流中提取特征点和构建局部地图。位姿图优化模块负责将来自不同机器人的局部地图进行对齐和融合，构建全局一致的地图。尺度一致性维护模块则负责检测和拒绝错误的闭环检测，并利用Sim(3)锚节点公式来估计和校正每个会话的尺度。

关键创新：MR.ScaleMaster的关键创新在于Sim(3)锚节点公式。传统的SE(3)框架无法显式地估计尺度，而Sim(3)框架则允许系统同时优化位姿和尺度，从而解决了单目视觉中的尺度模糊问题。此外，尺度崩溃警报机制能够有效地防止错误的闭环检测对位姿图产生破坏，提高了系统的鲁棒性。

关键设计：Sim(3)锚节点公式通过将每个会话的位姿表示为Sim(3)空间中的变换，并引入锚节点来约束不同会话之间的相对尺度关系。尺度崩溃警报机制则通过检测闭环检测前后位姿图的变化来判断闭环检测是否正确。如果位姿图的变化超过预设的阈值，则认为该闭环检测是错误的，并将其拒绝。具体参数设置和损失函数细节未在摘要中体现，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在KITTI数据集上，MR.ScaleMaster的Sim(3)公式相比SE(3)基线实现了7.2倍的ATE降低，显著提高了建图精度。同时，尺度崩溃警报机制成功拒绝了所有假阳性闭环，并保留了所有有效约束，保证了系统的鲁棒性。此外，该系统还成功融合了MASt3R-SLAM、pi3和VGGT-SLAM 2.0等多种异构SLAM系统，证明了其良好的可扩展性。

🎯 应用场景

MR.ScaleMaster可应用于大规模场景的3D重建、机器人协同导航、增强现实等领域。例如，在城市级别的地图构建中，可以利用众包的手机视频数据，构建高精度的三维地图。在灾后救援中，可以利用无人机协同进行环境勘测和地图构建，为救援工作提供支持。该研究的未来影响在于推动了单目视觉在更广泛领域的应用。

📄 摘要（原文）

Crowd-sourced cooperative mapping from monocular cameras promises scalable 3D reconstruction without specialized sensors, yet remains hindered by two scale-specific failure modes: abrupt scale collapse from false-positive loop closures in repetitive environments, and gradual scale drift over long trajectories and per-robot scale ambiguity that prevent direct multi-session fusion. We present MR.ScaleMaster, a cooperative mapping system for crowd-sourced monocular videos that addresses both failure modes. MR.ScaleMaster introduces three key mechanisms. First, a Scale Collapse Alarm rejects spurious loop closures before they corrupt the pose graph. Second, a Sim(3) anchor node formulation generalizes the classical SE(3) framework to explicitly estimate per-session scale, resolving per-robot scale ambiguity and enforcing global scale consistency. Third, a modular, open-source, plug-and-play interface enables any monocular reconstruction model to integrate without backend modification. On KITTI sequences with up to 15 agents, the Sim(3) formulation achieves a 7.2x ATE reduction over the SE(3) baseline, and the alarm rejects all false-positive loops while preserving every valid constraint. We further demonstrate heterogeneous multi-robot dense mapping fusing MASt3R-SLAM, pi3, and VGGT-SLAM 2.0 within a single unified map.

MR.ScaleMaster: Scale-Consistent Collaborative Mapping from Crowd-Sourced Monocular Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理