Dense Dynamic Scene Reconstruction and Camera Pose Estimation from Multi-View Videos

作者: Shuo Sun, Unal Artan, Malcolm Mielle, Achim J. Lilienthaland, Martin Magnusson

分类: cs.CV

发布日期: 2026-03-12

💡 一句话要点

提出双阶段优化框架，解决多视角视频稠密动态场景重建与相机位姿估计问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱八：物理动画 (Physics-based Animation)

关键词: 动态场景重建 相机位姿估计 多视角视频 视觉SLAM 宽基线 光流 优化框架

📋 核心要点

现有动态场景重建方法依赖单相机或预校准相机阵列，限制了其在多自由移动相机场景下的应用。
论文提出双阶段优化框架，首先进行鲁棒相机跟踪，然后进行稠密深度细化，解耦复杂任务。
实验表明，该方法在合成和真实数据集上优于现有前馈模型，且内存占用更少，并发布了新的数据集。

📝 摘要（中文）

本文研究了从多个自由移动相机拍摄的视频中进行稠密动态场景重建和相机位姿估计这一具有挑战性的问题。现有方法要么仅处理单相机输入，要么需要刚性安装的、预先校准的相机设备，限制了它们的实际应用性。我们提出了一个两阶段优化框架，将任务解耦为鲁棒的相机跟踪和稠密深度细化。在第一阶段，通过构建时空连接图，利用相机内的时间连续性和相机间的空间重叠，将单相机视觉SLAM扩展到多相机设置，从而实现一致的尺度和鲁棒的跟踪。为了确保在有限重叠下的鲁棒性，我们引入了一种使用前馈重建模型的宽基线初始化策略。在第二阶段，我们通过使用宽基线光流优化密集的相机间和相机内一致性来细化深度和相机位姿。此外，我们引入了MultiCamRobolab，这是一个新的真实世界数据集，包含来自运动捕捉系统的ground-truth位姿。最后，我们证明了我们的方法在合成和真实世界的基准测试中显著优于最先进的前馈模型，同时需要更少的内存。

🔬 方法详解

问题定义：论文旨在解决多视角视频中，在相机自由移动的情况下，如何进行稠密动态场景重建和相机位姿估计的问题。现有方法的痛点在于，要么只能处理单相机输入，无法有效利用多视角信息；要么需要预先校准的相机阵列，限制了其灵活性和适用范围。因此，如何在无需预校准的情况下，利用多视角信息进行鲁棒的动态场景重建和相机位姿估计是一个关键挑战。

核心思路：论文的核心思路是将问题分解为两个阶段：首先进行鲁棒的相机跟踪，然后进行稠密深度细化。这种解耦的设计允许分别优化相机位姿和场景几何，从而提高整体的重建质量和鲁棒性。通过构建时空连接图，利用相机内的时间连续性和相机间的空间重叠，实现多相机之间的信息融合，从而获得一致的尺度和鲁棒的跟踪结果。

技术框架：整体框架包含两个主要阶段： 1. 相机跟踪阶段：利用视觉SLAM技术，构建时空连接图，融合多相机信息，实现鲁棒的相机位姿估计。采用宽基线初始化策略，处理相机重叠区域有限的情况。 2. 深度细化阶段：利用宽基线光流，优化相机间和相机内的一致性，从而细化深度图和相机位姿。

关键创新：论文的关键创新在于： 1. 多相机时空连接图：通过构建时空连接图，有效地融合了多相机的信息，实现了鲁棒的相机跟踪。 2. 宽基线初始化策略：针对相机重叠区域有限的情况，提出了一种基于前馈重建模型的宽基线初始化策略，提高了系统的鲁棒性。 3. 双阶段优化框架：将问题解耦为相机跟踪和深度细化两个阶段，分别进行优化，提高了整体的重建质量和效率。

关键设计： * 时空连接图：节点表示关键帧，边表示相机内的时间连续性和相机间的空间重叠关系。边的权重可以根据特征匹配的质量进行调整。 * 宽基线光流：用于优化相机间和相机内的一致性，采用鲁棒的损失函数，减少异常值的影响。 * 损失函数：包括光度一致性损失、几何一致性损失等，用于约束深度图和相机位姿的优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在合成和真实数据集上均优于现有前馈模型。在MultiCamRobolab数据集上，该方法在相机位姿估计和深度重建精度方面均取得了显著提升，同时内存占用更少。与现有方法相比，该方法能够处理更复杂的动态场景，并具有更强的鲁棒性。

🎯 应用场景

该研究成果可应用于机器人导航、增强现实、虚拟现实、自动驾驶等领域。例如，在机器人导航中，可以利用该方法进行环境感知和地图构建；在增强现实中，可以将虚拟物体与真实场景进行精确的融合；在自动驾驶中，可以用于车辆的定位和场景理解。未来，该技术有望在更多需要精确三维重建和位姿估计的场景中发挥重要作用。

📄 摘要（原文）

We address the challenging problem of dense dynamic scene reconstruction and camera pose estimation from multiple freely moving cameras -- a setting that arises naturally when multiple observers capture a shared event. Prior approaches either handle only single-camera input or require rigidly mounted, pre-calibrated camera rigs, limiting their practical applicability. We propose a two-stage optimization framework that decouples the task into robust camera tracking and dense depth refinement. In the first stage, we extend single-camera visual SLAM to the multi-camera setting by constructing a spatiotemporal connection graph that exploits both intra-camera temporal continuity and inter-camera spatial overlap, enabling consistent scale and robust tracking. To ensure robustness under limited overlap, we introduce a wide-baseline initialization strategy using feed-forward reconstruction models. In the second stage, we refine depth and camera poses by optimizing dense inter- and intra-camera consistency using wide-baseline optical flow. Additionally, we introduce MultiCamRobolab, a new real-world dataset with ground-truth poses from a motion capture system. Finally, we demonstrate that our method significantly outperforms state-of-the-art feed-forward models on both synthetic and real-world benchmarks, while requiring less memory.

Dense Dynamic Scene Reconstruction and Camera Pose Estimation from Multi-View Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理