DROID-SLAM in the Wild

📄 arXiv: 2603.19076v1 📥 PDF

作者: Moyang Li, Zihan Zhu, Marc Pollefeys, Daniel Barath

分类: cs.CV, cs.RO

发布日期: 2026-03-19

备注: CVPR 2026, Project Page: https://moyangli00.github.io/droid-w/

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于可微不确定性Bundle Adjustment的DROID-SLAM,解决动态环境下鲁棒SLAM问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态SLAM 不确定性估计 Bundle Adjustment 多视图几何 实时SLAM

📋 核心要点

  1. 传统SLAM在动态场景中失效,现有动态SLAM方法在未知动态物体或复杂场景下受限。
  2. 利用多视图视觉特征不一致性估计像素级不确定性,实现动态环境下的鲁棒跟踪和重建。
  3. 系统在复杂动态场景中实现了先进的相机姿态和场景几何估计,并达到实时性能(约10 FPS)。

📝 摘要(中文)

本文提出了一种鲁棒的实时RGB SLAM系统,通过利用可微的不确定性感知Bundle Adjustment来处理动态环境。传统的SLAM方法通常假设静态场景,导致在存在运动时跟踪失败。最近的动态SLAM方法试图使用预定义的动态先验或不确定性感知映射来解决这一挑战,但当面对未知的动态对象或几何映射变得不可靠的高度杂乱场景时,它们仍然受到限制。相比之下,我们的方法通过利用多视图视觉特征不一致性来估计每个像素的不确定性,从而即使在真实世界的环境中也能实现鲁棒的跟踪和重建。所提出的系统在杂乱的动态场景中实现了最先进的相机姿态和场景几何,同时以大约10 FPS的实时速度运行。代码和数据集可在https://github.com/MoyangLi00/DROID-W.git获得。

🔬 方法详解

问题定义:论文旨在解决动态环境下SLAM系统的鲁棒性问题。现有方法要么假设静态场景,要么依赖预定义的动态先验,在面对未知动态物体或高度杂乱的场景时,性能显著下降,甚至无法正常工作。这些方法无法准确区分静态背景和动态物体,导致跟踪失败和地图构建错误。

核心思路:论文的核心思路是利用多视图几何约束,通过检测和量化像素级的不确定性来区分静态和动态区域。具体来说,通过分析不同视角下视觉特征的不一致性,估计每个像素属于动态物体的概率或不确定性程度。这种不确定性信息被用于优化相机姿态和场景几何,从而提高SLAM系统的鲁棒性。

技术框架:该系统基于DROID-SLAM框架,并进行了扩展以处理动态环境。主要包含以下模块:1) 特征提取与匹配:提取图像中的视觉特征,并在不同帧之间进行匹配。2) 不确定性估计:利用多视图特征不一致性估计每个像素的不确定性。3) Bundle Adjustment:使用可微的Bundle Adjustment优化相机姿态和场景几何,同时考虑像素级的不确定性。4) 动态物体剔除:根据不确定性信息,剔除动态物体对优化过程的影响。

关键创新:最重要的技术创新点在于像素级不确定性估计方法。该方法不需要预先知道哪些物体是动态的,而是通过分析多视图几何信息,自动推断每个像素的不确定性。这种方法更加灵活和通用,可以处理各种复杂的动态场景。与现有方法相比,该方法不需要预定义的动态先验,也不依赖于特定的动态物体检测算法。

关键设计:不确定性估计模块是关键。具体实现细节未知,但可以推测可能使用了例如光度一致性误差、几何一致性误差等指标来衡量多视图特征的不一致性。Bundle Adjustment过程中,不确定性被用作权重,降低动态像素对优化目标的影响。损失函数的设计也至关重要,需要平衡静态区域的精度和动态区域的鲁棒性。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的DROID-SLAM在动态场景下实现了state-of-the-art的性能,在复杂动态场景中实现了先进的相机姿态和场景几何估计,同时保持了实时性(约10 FPS)。具体性能数据和对比基线未知,但摘要强调了其在杂乱动态场景下的优越性。代码和数据集已开源,方便其他研究者进行复现和改进。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、增强现实等领域。在这些应用中,环境通常是动态变化的,传统的SLAM方法难以保证鲁棒性。该方法可以提高SLAM系统在动态环境下的稳定性和准确性,从而提升相关应用的性能和用户体验。未来,该技术有望进一步推广到更广泛的领域,例如智能监控、虚拟现实等。

📄 摘要(原文)

We present a robust, real-time RGB SLAM system that handles dynamic environments by leveraging differentiable Uncertainty-aware Bundle Adjustment. Traditional SLAM methods typically assume static scenes, leading to tracking failures in the presence of motion. Recent dynamic SLAM approaches attempt to address this challenge using predefined dynamic priors or uncertainty-aware mapping, but they remain limited when confronted with unknown dynamic objects or highly cluttered scenes where geometric mapping becomes unreliable. In contrast, our method estimates per-pixel uncertainty by exploiting multi-view visual feature inconsistency, enabling robust tracking and reconstruction even in real-world environments. The proposed system achieves state-of-the-art camera poses and scene geometry in cluttered dynamic scenarios while running in real time at around 10 FPS. Code and datasets are available at https://github.com/MoyangLi00/DROID-W.git.