VGGT-X: When VGGT Meets Dense Novel View Synthesis

📄 arXiv: 2509.25191v2 📥 PDF

作者: Yang Liu, Chuanchen Luo, Zimo Tang, Junran Peng, Zhaoxiang Zhang

分类: cs.CV

发布日期: 2025-09-29 (更新: 2025-10-08)

备注: Project Page: https://dekuliutesla.github.io/vggt-x.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

VGGT-X:针对密集场景的新视角合成,提升3D基础模型性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 新视角合成 3D基础模型 密集重建 姿态估计 神经辐射场 三维重建 运动结构恢复

📋 核心要点

  1. 现有新视角合成方法依赖SfM获取精确3D信息,但在低纹理或低重叠场景中表现不佳。
  2. VGGT-X通过内存高效的VGGT实现、自适应全局对齐和稳健的3DGS训练来解决密集场景下的问题。
  3. 实验表明,VGGT-X在无COLMAP的密集新视角合成和姿态估计方面达到了最先进水平。

📝 摘要(中文)

本文研究了将3D基础模型(3DFM)应用于密集新视角合成(NVS)的问题。尽管NeRF和3DGS驱动的新视角合成取得了显著进展,但当前方法仍然依赖于从运动结构恢复(SfM)获得的精确3D属性(例如,相机姿态和点云),这在低纹理或低重叠捕获中通常很慢且脆弱。最近的3DFM展示了比传统流程快几个数量级的速度,并具有在线NVS的巨大潜力。但大多数验证和结论都局限于稀疏视图设置。我们的研究表明,将3DFM简单地扩展到密集视图会遇到两个基本障碍:显著增加的VRAM负担和不完美的输出,这会降低对初始化敏感的3D训练。为了解决这些障碍,我们引入了VGGT-X,它包含一个内存高效的VGGT实现,可以扩展到1000多个图像,一个用于VGGT输出增强的自适应全局对齐,以及稳健的3DGS训练实践。大量的实验表明,这些措施大大缩小了与COLMAP初始化流程的保真度差距,在密集的无COLMAP NVS和姿态估计中实现了最先进的结果。此外,我们分析了与COLMAP初始化渲染的剩余差距的原因,为3D基础模型和密集NVS的未来发展提供了见解。

🔬 方法详解

问题定义:论文旨在解决在密集视图场景下,直接应用3D基础模型进行新视角合成时遇到的问题。现有方法依赖于COLMAP等SfM工具进行初始化,但在低纹理或低重叠场景中,COLMAP的性能会显著下降,导致后续新视角合成效果不佳。此外,直接将3DFM应用于密集视图会导致VRAM消耗过大,以及不完美的输出影响后续3D训练。

核心思路:论文的核心思路是通过改进3DFM的输出质量和降低其内存消耗,使其能够有效地应用于密集视图的新视角合成。具体来说,通过内存高效的VGGT实现来降低VRAM负担,并通过自适应全局对齐来增强VGGT的输出,从而为后续的3DGS训练提供更好的初始化。

技术框架:VGGT-X的整体框架包含三个主要部分:1) 内存高效的VGGT实现,用于从密集视图中提取初始的3D信息;2) 自适应全局对齐模块,用于校正VGGT输出中的误差,提高其准确性;3) 稳健的3DGS训练流程,利用校正后的3D信息进行优化,最终生成高质量的新视角图像。

关键创新:论文的关键创新在于针对密集视图场景,对3D基础模型进行了优化和改进。具体包括:1) 提出了内存高效的VGGT实现,使其能够处理大规模的密集视图数据;2) 引入了自适应全局对齐模块,能够有效地校正VGGT输出中的误差;3) 设计了稳健的3DGS训练流程,能够从不完美的初始化中恢复出高质量的3D场景。

关键设计:在内存高效的VGGT实现方面,可能采用了诸如量化、剪枝等技术来降低模型大小和计算复杂度。自适应全局对齐模块可能使用了基于优化的方法,通过最小化某种误差函数来校正VGGT的输出。稳健的3DGS训练流程可能使用了诸如鲁棒损失函数、正则化项等技术来提高训练的稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VGGT-X在密集的无COLMAP NVS和姿态估计中实现了最先进的结果,显著缩小了与COLMAP初始化流程的保真度差距。实验结果表明,通过提出的内存高效VGGT实现、自适应全局对齐和稳健的3DGS训练,可以有效地提高3D基础模型在密集场景下的性能。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、虚拟现实/增强现实等领域。通过摆脱对传统SfM工具的依赖,可以实现更快速、更鲁棒的新视角合成,尤其是在低纹理或低重叠场景下。这有助于提高相关应用在复杂环境中的适应性和可靠性,并为未来的3D场景理解和重建提供更强大的工具。

📄 摘要(原文)

We study the problem of applying 3D Foundation Models (3DFMs) to dense Novel View Synthesis (NVS). Despite significant progress in Novel View Synthesis powered by NeRF and 3DGS, current approaches remain reliant on accurate 3D attributes (e.g., camera poses and point clouds) acquired from Structure-from-Motion (SfM), which is often slow and fragile in low-texture or low-overlap captures. Recent 3DFMs showcase orders of magnitude speedup over the traditional pipeline and great potential for online NVS. But most of the validation and conclusions are confined to sparse-view settings. Our study reveals that naively scaling 3DFMs to dense views encounters two fundamental barriers: dramatically increasing VRAM burden and imperfect outputs that degrade initialization-sensitive 3D training. To address these barriers, we introduce VGGT-X, incorporating a memory-efficient VGGT implementation that scales to 1,000+ images, an adaptive global alignment for VGGT output enhancement, and robust 3DGS training practices. Extensive experiments show that these measures substantially close the fidelity gap with COLMAP-initialized pipelines, achieving state-of-the-art results in dense COLMAP-free NVS and pose estimation. Additionally, we analyze the causes of remaining gaps with COLMAP-initialized rendering, providing insights for the future development of 3D foundation models and dense NVS. Our project page is available at https://dekuliutesla.github.io/vggt-x.github.io/