VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

📄 arXiv: 2605.15186v1 📥 PDF

作者: Kaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang, Bohan Zeng, Ziyu Guo, Ruichuan An, Zhou Liu, Qizhi Chen, Delin Qu, Jaehong Yoon, Wentao Zhang

分类: cs.CV, cs.AI

发布日期: 2026-05-14


💡 一句话要点

VGGT-Edit:提出基于残差场预测的前馈原生3D场景文本编辑方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景编辑 文本条件生成 残差场预测 深度学习 计算机视觉

📋 核心要点

  1. 现有3D场景编辑方法依赖2D-lifting策略,导致纹理模糊和几何不一致,缺乏空间感知能力。
  2. VGGT-Edit提出深度同步文本注入和残差变换头,实现文本条件下的原生3D场景编辑,保持背景稳定。
  3. 实验表明,VGGT-Edit在物体细节、多视图一致性和推理速度方面显著优于2D-lifting基线。

📝 摘要(中文)

高质量3D场景重建技术近年来已发展为可泛化的前馈架构,能够通过单次前向传播生成复杂的环境。然而,尽管这些模型在静态场景感知方面表现出色,但在响应动态的人工指令方面仍然存在局限性,这限制了它们在交互式应用中的使用。现有的编辑方法通常依赖于2D-lifting策略,即独立编辑各个视图,然后将其反向提升到3D空间。这种间接的流程通常会导致纹理模糊和几何不一致,因为2D编辑器缺乏保持跨视点结构的 spatial awareness。为了解决这些限制,我们提出了VGGT-Edit,一个用于文本条件原生3D场景编辑的前馈框架。VGGT-Edit引入了深度同步文本注入,以将语义指导与骨干网络的空间姿势对齐,确保稳定的指令 grounding。然后,该语义信号由残差变换头处理,该残差变换头直接预测3D几何位移以变形场景,同时保持背景稳定性。为了确保高保真度结果,我们使用多项目标函数来监督该框架,该目标函数强制执行几何精度和跨视图一致性。我们还构建了DeltaScene数据集,这是一个通过自动管道生成的大规模数据集,具有3D agreement filtering,以确保ground-truth质量。实验表明,VGGT-Edit大大优于2D-lifting基线,产生更清晰的物体细节、更强的多视图一致性和接近瞬时的推理速度。

🔬 方法详解

问题定义:现有3D场景编辑方法,特别是基于2D-lifting的方法,在处理复杂场景和保持跨视图一致性方面存在问题。2D编辑器缺乏对3D空间结构的感知,导致编辑后的场景出现纹理模糊、几何失真等问题,难以满足交互式应用的需求。

核心思路:VGGT-Edit的核心思路是直接在3D空间中进行编辑,避免了2D-lifting过程中的信息损失。通过深度同步文本注入,将文本指令与3D场景的几何信息对齐,确保编辑操作的准确性和一致性。利用残差变换头预测3D几何位移,实现对场景的变形,同时保持背景的稳定性。

技术框架:VGGT-Edit框架主要包括以下几个模块:1) 深度同步文本注入模块,用于将文本指令与3D场景的深度信息融合;2) 残差变换头,用于预测3D几何位移,实现场景的变形;3) 多项损失函数,用于监督模型的训练,保证几何精度和跨视图一致性。整体流程是,首先将文本指令和3D场景输入到深度同步文本注入模块,然后将输出传递给残差变换头,最后通过多项损失函数进行优化。

关键创新:VGGT-Edit的关键创新在于:1) 提出了深度同步文本注入方法,实现了文本指令与3D场景几何信息的有效融合;2) 设计了残差变换头,可以直接预测3D几何位移,避免了2D-lifting过程中的信息损失;3) 构建了DeltaScene数据集,为3D场景编辑任务提供了高质量的训练数据。

关键设计:深度同步文本注入模块的具体实现方式未知,但其核心思想是将文本指令嵌入到3D场景的深度信息中,从而实现文本指令与3D场景的对齐。残差变换头可能采用类似U-Net的结构,用于预测3D几何位移。多项损失函数包括几何损失和跨视图一致性损失,用于保证编辑后的场景的几何精度和跨视图一致性。DeltaScene数据集的构建过程未知,但其关键在于3D agreement filtering,用于保证数据的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VGGT-Edit在实验中表现出显著的优势,相较于2D-lifting基线方法,在物体细节的清晰度、多视图一致性以及推理速度上均有大幅提升。具体性能数据未知,但论文强调VGGT-Edit能够产生更清晰的物体细节和更强的多视图一致性,并且具有接近瞬时的推理速度,使其更适用于交互式应用。

🎯 应用场景

VGGT-Edit具有广泛的应用前景,例如虚拟现实/增强现实(VR/AR)内容创作、游戏开发、室内设计和机器人导航等领域。该技术可以帮助用户通过简单的文本指令,快速、高效地编辑3D场景,创造出个性化的虚拟环境。未来,该技术有望应用于自动驾驶、智能家居等领域,实现更加智能化的场景理解和交互。

📄 摘要(原文)

High-quality 3D scene reconstruction has recently advanced toward generalizable feed-forward architectures, enabling the generation of complex environments in a single forward pass. However, despite their strong performance in static scene perception, these models remain limited in responding to dynamic human instructions, which restricts their use in interactive applications. Existing editing methods typically rely on a 2D-lifting strategy, where individual views are edited independently and then lifted back into 3D space. This indirect pipeline often leads to blurry textures and inconsistent geometry, as 2D editors lack the spatial awareness required to preserve structure across viewpoints. To address these limitations, we propose VGGT-Edit, a feed-forward framework for text-conditioned native 3D scene editing. VGGT-Edit introduces depth-synchronized text injection to align semantic guidance with the backbone's spatial poses, ensuring stable instruction grounding. This semantic signal is then processed by a residual transformation head, which directly predicts 3D geometric displacements to deform the scene while preserving background stability. To ensure high-fidelity results, we supervise the framework with a multi-term objective function that enforces geometric accuracy and cross-view consistency. We also construct the DeltaScene Dataset, a large-scale dataset generated through an automated pipeline with 3D agreement filtering to ensure ground-truth quality. Experiments show that VGGT-Edit substantially outperforms 2D-lifting baselines, producing sharper object details, stronger multi-view consistency, and near-instant inference speed.