PRISM-SLAM: Probabilistic Ray-Grounded Inference for Scale-aware Metric SLAM

📄 arXiv: 2605.19257v1 📥 PDF

作者: Eunsoo Im

分类: cs.RO

发布日期: 2026-05-19

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出PRISM-SLAM以解决单目SLAM中的尺度模糊问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单目SLAM 动态场景 视觉基础模型 贝叶斯因子图 深度先验 不确定性门控 实时处理 机器人导航

📋 核心要点

  1. 单目SLAM在动态环境中面临尺度模糊和跟踪失败的挑战,现有方法未能有效解决这些问题。
  2. PRISM-SLAM通过将视觉基础模型的先验信息整合进贝叶斯因子图,提供了一种尺度感知的SLAM解决方案。
  3. 在TUM RGB-D和7-Scenes基准测试中,PRISM-SLAM的度量$SE(3)$绝对轨迹误差与其理想对齐的$Sim(3)$误差几乎相同,显示出其强大的实用性。

📝 摘要(中文)

单目SLAM在动态环境中历来面临尺度模糊和跟踪失败的问题。尽管近期的视觉基础模型(VFM)提供了显著的零-shot深度先验,但简单地将这些确定性预测整合进系统中会忽视预测的不确定性和帧间尺度不一致性。为此,我们提出了PRISM-SLAM,这是一个实时框架,严格将VFM先验整合进结构化的贝叶斯因子图中,以实现尺度感知和度量一致的定位与映射。我们引入了Plücker射线距离因子,将单目观测锚定在绝对空间内的全球一致度量坐标系统中,数学上解决了尺度漂移问题。为应对环境动态,我们从时间深度一致性中推导出一种认知不确定性代理,并制定了动态场景不确定性门控机制。通过多进程架构,PRISM-SLAM能够在仅使用RGB输入的情况下,以30 FPS的速度提供经过验证的度量输出,成功将基础模型与实际机器人应用连接起来。

🔬 方法详解

问题定义:本论文旨在解决单目SLAM在动态环境中面临的尺度模糊和跟踪失败问题。现有方法在处理动态场景时,往往忽视了预测的不确定性和帧间尺度不一致性,导致性能下降。

核心思路:PRISM-SLAM的核心思路是将视觉基础模型(VFM)的深度先验信息整合进结构化的贝叶斯因子图中,通过引入Plücker射线距离因子来锚定单目观测,从而实现尺度感知的定位与映射。

技术框架:PRISM-SLAM采用多进程架构,异步处理VFM推理和几何跟踪。主要模块包括深度先验整合、动态场景不确定性门控机制和贝叶斯因子图优化,确保实时性和准确性。

关键创新:最重要的技术创新在于引入Plücker射线距离因子,使得单目观测能够在全球一致的度量坐标系统中进行锚定,从而数学上解决了尺度漂移问题。此外,动态场景不确定性门控机制有效降低了动态干扰的影响。

关键设计:在设计中,采用了基于时间深度一致性的认知不确定性代理,结合软门控方法来降低动态干扰的权重,避免了传统语义分割掩码带来的高计算开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在TUM RGB-D和7-Scenes基准测试中,PRISM-SLAM的度量$SE(3)$绝对轨迹误差与理想对齐的$Sim(3)$误差几乎相同,展示了其在动态环境下的优越性能。该系统能够在仅使用RGB输入的情况下,以30 FPS的速度输出经过验证的度量结果,显著提升了实时SLAM的实用性。

🎯 应用场景

PRISM-SLAM的研究成果在机器人导航、增强现实和自动驾驶等领域具有广泛的应用潜力。通过提供稳定且准确的度量SLAM解决方案,该方法能够有效支持实时环境感知和决策制定,推动智能机器人在复杂动态环境中的应用。

📄 摘要(原文)

Monocular SLAM historically suffers from scale ambiguity and tracking failure in dynamic environments. While recent vision foundation models (VFMs) provide remarkable zero-shot depth priors, naively integrating these deterministic predictions ignores predictive uncertainty and frame-to-frame scale inconsistencies. We propose PRISM-SLAM, a real-time framework that rigorously integrates VFM priors into a structured Bayesian factor graph to achieve scale-aware, metric-consistent localization and mapping. Specifically, we introduce a Plücker Ray-Distance Factor to anchor monocular observations in absolute space within a globally consistent metric coordinate system, mathematically resolving scale drift by making the metric scale Fisher-identifiable. To handle environmental dynamics, we derive an epistemic uncertainty proxy from temporal depth consistency and formulate a Dynamic Scene Uncertainty Gating (DSUG) mechanism. This soft-gating approach probabilistically down-weights dynamic distractors without incurring the heavy computational overhead associated with traditional semantic segmentation masks. By employing a multi-process architecture that asynchronously processes VFM inference and geometric tracking, PRISM-SLAM provides verified metric output at 30 FPS using solely RGB input, bridging the gap between foundation models and real-world robotic applications. Evaluated on the TUM RGB-D and 7-Scenes benchmarks, PRISM-SLAM achieves a metric $SE(3)$ Absolute Trajectory Error (ATE) nearly identical to its oracle-aligned $Sim(3)$ error. This demonstrates that our system can produce deployment-ready metric trajectories by delivering robust metric SLAM solutions without any post-hoc scale correction. Project page: https://prismslam-cmd.github.io/prismslam_pr/