RoMo: Robust Motion Segmentation Improves Structure from Motion
作者: Lily Goli, Sara Sabour, Mark Matthews, Marcus Brubaker, Dmitry Lagun, Alec Jacobson, David J. Fleet, Saurabh Saxena, Andrea Tagliasacchi
分类: cs.CV
发布日期: 2024-11-27
💡 一句话要点
RoMo:稳健的运动分割提升了基于动态场景的SfM相机标定效果
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 运动分割 结构光重建 SfM 相机标定 动态场景 光流 对极几何
📋 核心要点
- 现有的SfM方法在处理包含动态物体的视频时,由于难以区分静态和动态部分,导致相机位姿估计精度下降。
- RoMo方法结合光流、对极几何约束和预训练的视频分割模型,通过迭代优化实现更准确的运动分割。
- 实验表明,RoMo在运动分割任务上优于现有方法,并显著提升了动态场景下SfM相机标定的性能。
📝 摘要(中文)
单目视频的四维场景重建和生成取得了显著进展。这些任务严重依赖已知的相机位姿,而使用运动恢复结构(SfM)寻找这些位姿通常取决于将视频中的静态部分与动态部分稳健地分离。缺乏针对此问题的稳健解决方案限制了SfM相机标定流程的性能。我们提出了一种新颖的基于视频的运动分割方法,用于识别场景中相对于固定世界坐标系移动的组件。我们简单但有效的迭代方法RoMo,将光流和对极几何线索与预训练的视频分割模型相结合。它优于用于运动分割的无监督基线以及从合成数据训练的有监督基线。更重要的是,将现成的SfM流程与我们的分割掩码相结合,在具有动态内容的场景的相机标定方面建立了新的最先进水平,大大优于现有方法。
🔬 方法详解
问题定义:论文旨在解决动态场景下,由于场景中存在运动物体,导致传统SfM方法相机标定精度下降的问题。现有方法要么无法有效区分静态和动态区域,要么依赖于合成数据训练,泛化能力不足。
核心思路:论文的核心思路是将光流信息、对极几何约束以及预训练的视频分割模型相结合,利用它们各自的优势,通过迭代的方式逐步优化运动分割的结果。光流提供运动信息,对极几何约束提供几何一致性,预训练模型提供先验知识,三者相互补充,提高分割的鲁棒性和准确性。
技术框架:RoMo方法的整体流程如下:1) 使用预训练的视频分割模型生成初始分割掩码;2) 计算视频帧之间的光流;3) 利用光流和分割掩码估计每个像素的运动概率;4) 利用对极几何约束对运动概率进行优化;5) 根据优化后的运动概率更新分割掩码;6) 重复步骤2-5,直到分割结果收敛。
关键创新:RoMo的关键创新在于将光流、对极几何约束和预训练的视频分割模型以迭代的方式进行融合。这种融合方式充分利用了不同信息的优势,提高了运动分割的鲁棒性和准确性。此外,RoMo方法不需要在合成数据上进行训练,可以直接应用于真实世界的视频。
关键设计:RoMo使用了一个预训练的视频分割模型来生成初始分割掩码。光流的计算使用了现成的算法,例如RAFT。对极几何约束通过最小化重投影误差来实现。运动概率的更新使用了sigmoid函数。迭代的停止条件是分割掩码的变化小于一个阈值。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RoMo方法在运动分割任务上优于现有的无监督和有监督方法。更重要的是,将RoMo方法与现成的SfM流程相结合,在动态场景下的相机标定方面取得了新的state-of-the-art,显著优于现有方法。具体提升幅度未知,但摘要中提到“by a substantial margin”。
🎯 应用场景
该研究成果可广泛应用于增强现实、机器人导航、自动驾驶等领域。在这些应用中,准确的相机位姿估计至关重要,而动态场景下的运动分割是实现高精度位姿估计的关键步骤。RoMo方法能够有效提升动态场景下的相机标定精度,从而提高这些应用的性能和可靠性。
📄 摘要(原文)
There has been extensive progress in the reconstruction and generation of 4D scenes from monocular casually-captured video. While these tasks rely heavily on known camera poses, the problem of finding such poses using structure-from-motion (SfM) often depends on robustly separating static from dynamic parts of a video. The lack of a robust solution to this problem limits the performance of SfM camera-calibration pipelines. We propose a novel approach to video-based motion segmentation to identify the components of a scene that are moving w.r.t. a fixed world frame. Our simple but effective iterative method, RoMo, combines optical flow and epipolar cues with a pre-trained video segmentation model. It outperforms unsupervised baselines for motion segmentation as well as supervised baselines trained from synthetic data. More importantly, the combination of an off-the-shelf SfM pipeline with our segmentation masks establishes a new state-of-the-art on camera calibration for scenes with dynamic content, outperforming existing methods by a substantial margin.