4D Primitive-Mâché: Glueing Primitives for Persistent 4D Scene Reconstruction

📄 arXiv: 2512.16564v1 📥 PDF

作者: Kirill Mazur, Marwan Taher, Andrew J. Davison

分类: cs.CV

发布日期: 2025-12-18

备注: For project page, see https://makezur.github.io/4DPM/


💡 一句话要点

提出4D Primitive-Mâché,用于单目视频的持久化4D场景重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 4D场景重建 动态场景 单目视觉 刚性图元 运动估计

📋 核心要点

  1. 现有动态场景重建方法难以重建完整且持久的场景,尤其是在物体遮挡或离开视野后。
  2. 该论文提出将场景分解为刚性3D图元,通过优化图元的刚性运动来实现4D场景重建,并使用运动分组来推断不可见物体的运动。
  3. 实验结果表明,该方法在物体扫描和多物体数据集上优于现有方法,实现了可重放的3D铰接物体重建和物体持久性。

📝 摘要(中文)

本文提出了一种动态重建系统,该系统以单目RGB视频作为输入,输出场景的完整且持久的重建结果。换句话说,我们不仅重建当前可见的场景部分,还重建所有先前观察到的部分,从而能够重放所有时间步长的完整重建。我们的方法将场景分解为一组刚性3D图元,这些图元被认为在整个场景中移动。利用估计的密集2D对应关系,我们通过优化流程联合推断这些图元的刚性运动,从而产生场景的4D重建,即提供随时间动态移动的3D几何体。为此,我们还引入了一种机制来推断不可见物体的运动,采用运动分组技术来保持连续性。由此产生的系统实现了4D时空感知,提供了诸如随时间推移的可重放3D铰接物体重建、多物体扫描和物体持久性等功能。在物体扫描和多物体数据集上,我们的系统在定量和定性方面均显著优于现有方法。

🔬 方法详解

问题定义:现有动态场景重建方法通常只能重建当前可见的场景部分,无法重建之前观察到但目前被遮挡或已离开视野的部分。这限制了对场景的完整理解和长期跟踪能力。因此,该论文旨在解决如何从单目视频中实现完整且持久的4D场景重建的问题,即重建所有时间步长的场景几何和运动信息。

核心思路:该论文的核心思路是将动态场景分解为一组刚性3D图元,并假设这些图元在场景中进行刚性运动。通过估计图像中的密集2D对应关系,并优化这些图元的刚性运动参数,可以得到场景的4D重建。为了处理物体遮挡或离开视野的情况,该论文还引入了运动外推机制,利用运动分组技术来保持运动的连续性。

技术框架:该方法主要包含以下几个阶段:1) 密集2D对应关系估计:从单目视频中提取图像特征,并估计相邻帧之间的密集2D对应关系。2) 3D图元初始化:将场景初始化为一组3D图元。3) 刚性运动估计:利用估计的2D对应关系,通过优化方法联合估计每个图元的刚性运动参数。4) 运动外推:对于不可见的物体,利用运动分组技术外推其运动轨迹。5) 4D场景重建:将所有时间步长的图元几何和运动信息组合起来,得到完整的4D场景重建结果。

关键创新:该论文的关键创新在于:1) 提出了一种基于刚性3D图元的4D场景表示方法,能够有效地表示动态场景的几何和运动信息。2) 引入了一种运动外推机制,能够处理物体遮挡或离开视野的情况,从而实现持久的场景重建。3) 提出了一种联合优化框架,能够同时优化所有图元的刚性运动参数,从而提高重建精度。

关键设计:在刚性运动估计阶段,该论文使用了一种基于Bundle Adjustment的优化方法,最小化2D对应关系和3D图元投影之间的重投影误差。在运动外推阶段,该论文使用了一种基于运动分组的策略,将具有相似运动模式的图元分组在一起,并利用组内其他图元的运动信息来外推不可见图元的运动轨迹。具体的损失函数和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该系统在物体扫描和多物体数据集上进行了评估,结果表明该方法在定量和定性方面均显著优于现有方法。具体来说,该方法在重建精度和完整性方面都取得了显著提升,能够重建出更准确和完整的4D场景。

🎯 应用场景

该研究成果可应用于机器人导航、增强现实、虚拟现实、自动驾驶等领域。例如,机器人可以利用该技术构建动态环境的完整地图,从而实现更智能的导航和交互。在AR/VR中,可以实现更逼真的动态场景渲染和交互体验。自动驾驶系统可以利用该技术更好地理解和预测周围车辆和行人的运动。

📄 摘要(原文)

We present a dynamic reconstruction system that receives a casual monocular RGB video as input, and outputs a complete and persistent reconstruction of the scene. In other words, we reconstruct not only the the currently visible parts of the scene, but also all previously viewed parts, which enables replaying the complete reconstruction across all timesteps. Our method decomposes the scene into a set of rigid 3D primitives, which are assumed to be moving throughout the scene. Using estimated dense 2D correspondences, we jointly infer the rigid motion of these primitives through an optimisation pipeline, yielding a 4D reconstruction of the scene, i.e. providing 3D geometry dynamically moving through time. To achieve this, we also introduce a mechanism to extrapolate motion for objects that become invisible, employing motion-grouping techniques to maintain continuity. The resulting system enables 4D spatio-temporal awareness, offering capabilities such as replayable 3D reconstructions of articulated objects through time, multi-object scanning, and object permanence. On object scanning and multi-object datasets, our system significantly outperforms existing methods both quantitatively and qualitatively.