VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction
作者: Yu Hu, Chong Cheng, Sicheng Yu, Xiaoyang Guo, Hao Wang
分类: cs.CV
发布日期: 2025-11-25
💡 一句话要点
VGGT4D:挖掘视觉几何Transformer中的运动线索,用于4D场景重建
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 4D场景重建 动态场景理解 视觉几何Transformer 运动线索挖掘 免训练学习
📋 核心要点
- 动态场景重建的关键挑战在于如何有效分离动态物体和静态背景,现有方法依赖外部信息或需要大量优化。
- VGGT4D通过挖掘VGGT中隐含的动态线索,利用Gram相似性和投影梯度细化,实现动态物体的精确分割。
- 实验表明,VGGT4D在动态物体分割、相机姿态估计和密集重建方面均优于现有方法,且支持长序列推理。
📝 摘要(中文)
动态4D场景重建极具挑战性,因为它需要稳健地将动态物体从静态背景中分离出来。虽然像VGGT这样的3D基础模型提供了精确的3D几何信息,但当移动物体占据主导地位时,它们的性能会显著下降。现有的4D方法通常依赖于外部先验、繁重的后优化,或者需要在4D数据集上进行微调。本文提出了VGGT4D,一个无需训练的框架,扩展了3D基础模型VGGT,用于稳健的4D场景重建。我们的方法基于一个关键发现:VGGT的全局注意力层已经隐式地编码了丰富的、逐层的动态线索。为了获得解耦静态和动态元素的掩码,我们通过Gram相似性挖掘和放大全局动态线索,并在时间窗口内聚合它们。为了进一步锐化掩码边界,我们引入了一种由投影梯度驱动的细化策略。然后,我们将这些精确的掩码集成到VGGT的早期推理阶段,有效地减轻了运动对姿态估计和几何重建的干扰。在六个数据集上,我们的方法在动态对象分割、相机姿态估计和密集重建方面取得了优异的性能。它还支持对超过500帧的序列进行单次推理。
🔬 方法详解
问题定义:动态4D场景重建旨在从视频序列中恢复场景的3D几何结构以及随时间变化的动态物体。现有方法在处理包含大量运动物体的场景时,往往由于动态物体与静态背景的混淆而导致重建质量下降。此外,许多方法依赖于额外的先验知识或需要耗时的后处理优化,限制了其应用范围。
核心思路:VGGT4D的核心思想是利用3D基础模型VGGT中已经存在的、但未被充分利用的动态线索。作者发现,VGGT的全局注意力层在不同层级上隐式地编码了场景中的运动信息。通过有效地挖掘和放大这些动态线索,可以实现动态物体和静态背景的解耦,从而提高4D场景重建的鲁棒性。
技术框架:VGGT4D框架主要包含三个阶段:1) 动态线索挖掘与聚合:利用Gram矩阵计算VGGT各层特征之间的相似性,提取动态线索,并在时间窗口内进行聚合,生成初始的动态物体掩码。2) 掩码细化:通过投影梯度驱动的细化策略,优化掩码边界,提高分割精度。3) 集成到VGGT推理:将细化后的掩码集成到VGGT的早期推理阶段,抑制运动干扰,提升姿态估计和几何重建的准确性。
关键创新:VGGT4D的关键创新在于其无需训练的特性,以及对现有3D基础模型VGGT的有效利用。与需要大量训练数据或依赖外部先验的方法不同,VGGT4D直接从VGGT的内部表示中挖掘动态线索,实现了对动态场景的鲁棒重建。此外,投影梯度驱动的掩码细化策略进一步提升了分割精度。
关键设计:在动态线索挖掘阶段,使用Gram矩阵计算特征相似性,能够捕捉不同层级上的运动信息。时间窗口的长度需要根据场景的运动速度进行调整。投影梯度细化策略利用图像梯度信息来优化掩码边界,损失函数的设计需要平衡分割精度和边界锐化。将掩码集成到VGGT早期推理阶段,可以有效抑制运动对后续处理的影响。
📊 实验亮点
VGGT4D在六个数据集上取得了显著的性能提升,在动态物体分割、相机姿态估计和密集重建方面均优于现有方法。该方法无需训练,可以直接应用于现有的3D基础模型VGGT。此外,VGGT4D支持对超过500帧的长序列进行单次推理,展示了其高效性和可扩展性。
🎯 应用场景
VGGT4D在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以帮助机器人理解动态环境,从而做出更安全、更有效的决策。在自动驾驶中,准确的4D场景重建可以提高车辆对周围环境的感知能力,增强驾驶安全性。在增强现实中,VGGT4D可以实现更逼真的虚拟物体与真实场景的交互。
📄 摘要(原文)
Reconstructing dynamic 4D scenes is challenging, as it requires robust disentanglement of dynamic objects from the static background. While 3D foundation models like VGGT provide accurate 3D geometry, their performance drops markedly when moving objects dominate. Existing 4D approaches often rely on external priors, heavy post-optimization, or require fine-tuning on 4D datasets. In this paper, we propose VGGT4D, a training-free framework that extends the 3D foundation model VGGT for robust 4D scene reconstruction. Our approach is motivated by the key finding that VGGT's global attention layers already implicitly encode rich, layer-wise dynamic cues. To obtain masks that decouple static and dynamic elements, we mine and amplify global dynamic cues via gram similarity and aggregate them across a temporal window. To further sharpen mask boundaries, we introduce a refinement strategy driven by projection gradient. We then integrate these precise masks into VGGT's early-stage inference, effectively mitigating motion interference in both pose estimation and geometric reconstruction. Across six datasets, our method achieves superior performance in dynamic object segmentation, camera pose estimation, and dense reconstruction. It also supports single-pass inference on sequences longer than 500 frames.