Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

作者: Shaofeng Yin, Jiaxin Ge, Zora Zhiruo Wang, Xiuyu Li, Michael J. Black, Trevor Darrell, Angjoo Kanazawa, Haiwen Feng

分类: cs.CV, cs.AI, cs.GR

发布日期: 2026-01-16

💡 一句话要点

提出VIGA：通过交错多模态推理实现视觉逆向图形Agent，用于场景重建与编辑。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉逆向图形 多模态推理 场景重建 场景编辑 视觉语言模型 图形引擎 迭代优化

📋 核心要点

现有视觉语言模型在视觉逆向图形任务中，缺乏精细的空间和物理基础能力，难以一次性完成场景重建与编辑。
VIGA通过闭环的写-运行-渲染-比较-修改程序，迭代执行和验证，实现交错多模态推理，从而重建或编辑场景。
VIGA在BlenderGym和SlideBench等基准测试中，显著提高了one-shot基线的性能，并在BlenderBench上取得了124.70%的提升。

📝 摘要（中文）

视觉逆向图形，即将图像重建为可编辑的图形程序，是计算机视觉领域一个长期目标。然而，即使是强大的视觉语言模型（VLM）也无法一次性实现这一目标，因为它们缺乏精细的空间和物理基础能力。本文的核心观点是，弥合这一差距需要通过迭代执行和验证进行交错多模态推理。基于此，我们提出了VIGA（Vision-as-Inverse-Graphic Agent），它从一个空的世界开始，通过闭环的写-运行-渲染-比较-修改程序来重建或编辑场景。为了支持长时程推理，VIGA结合了（i）交替生成器和验证器角色的技能库和（ii）包含计划、代码差异和渲染历史的演化上下文记忆。VIGA是任务无关的，因为它不需要辅助模块，涵盖了广泛的任务，如3D重建、多步场景编辑、4D物理交互和2D文档编辑等。实验表明，VIGA在BlenderGym（35.32%）和SlideBench（117.17%）上显著提高了one-shot基线的性能。此外，VIGA也是模型无关的，因为它不需要微调，从而能够使用统一的协议来评估异构的基础VLM。为了更好地支持这个协议，我们引入了BlenderBench，这是一个具有挑战性的基准，用于压力测试具有图形引擎的交错多模态推理，VIGA在该基准上提高了124.70%。

🔬 方法详解

问题定义：论文旨在解决视觉逆向图形问题，即如何将图像重建为可编辑的图形程序。现有方法，特别是one-shot的视觉语言模型，难以实现精细的空间和物理推理，导致重建和编辑效果不佳。痛点在于缺乏迭代优化和验证机制，无法有效利用图形引擎的反馈。

核心思路：论文的核心思路是通过交错多模态推理，模拟人类的创作过程，即先写代码（生成图形指令），然后运行代码（渲染图像），再比较结果（与目标图像对比），最后修改代码（优化图形指令）。这种迭代过程能够逐步逼近目标，并利用图形引擎的反馈进行修正。

技术框架：VIGA的整体架构是一个闭环系统，包含以下主要模块：1) 技能库：包含生成器和验证器，生成器负责生成图形代码，验证器负责评估渲染结果。2) 上下文记忆：存储计划、代码差异和渲染历史，用于长时程推理。3) 图形引擎：用于渲染生成的图形代码，提供视觉反馈。流程如下：从空场景开始，生成器生成初始代码，图形引擎渲染图像，验证器比较渲染结果与目标图像，根据差异修改代码，重复此过程直到满足停止条件。

关键创新：最重要的技术创新点在于交错多模态推理框架，它将视觉语言模型与图形引擎紧密结合，通过迭代优化和验证，实现了更精确的场景重建和编辑。与现有方法的本质区别在于，VIGA不是一次性生成结果，而是通过闭环反馈不断改进。

关键设计：技能库中的生成器和验证器可以使用不同的视觉语言模型，无需微调。上下文记忆的设计允许VIGA跟踪历史状态，避免重复错误。损失函数的设计需要考虑渲染结果与目标图像之间的差异，例如可以使用像素级别的L1或L2损失，以及感知损失等。停止条件可以基于验证器的评估结果，例如当差异小于某个阈值时停止迭代。

📊 实验亮点

VIGA在BlenderGym上取得了35.32%的性能提升，在SlideBench上取得了117.17%的显著提升。更重要的是，VIGA在作者提出的BlenderBench基准测试中，性能提升高达124.70%，充分证明了其在交错多模态推理方面的优势。这些实验结果表明，VIGA能够有效利用图形引擎的反馈，实现更精确的场景重建和编辑。

🎯 应用场景

VIGA具有广泛的应用前景，包括3D内容创作、虚拟现实/增强现实、游戏开发、机器人视觉等领域。它可以用于自动生成3D模型、编辑现有场景、模拟物理交互，甚至可以应用于2D文档编辑。该研究的实际价值在于降低了3D内容创作的门槛，提高了效率，并为未来的智能体设计提供了新的思路。

📄 摘要（原文）

Vision-as-inverse-graphics, the concept of reconstructing an image as an editable graphics program is a long-standing goal of computer vision. Yet even strong VLMs aren't able to achieve this in one-shot as they lack fine-grained spatial and physical grounding capability. Our key insight is that closing this gap requires interleaved multimodal reasoning through iterative execution and verification. Stemming from this, we present VIGA (Vision-as-Inverse-Graphic Agent) that starts from an empty world and reconstructs or edits scenes through a closed-loop write-run-render-compare-revise procedure. To support long-horizon reasoning, VIGA combines (i) a skill library that alternates generator and verifier roles and (ii) an evolving context memory that contains plans, code diffs, and render history. VIGA is task-agnostic as it doesn't require auxiliary modules, covering a wide range of tasks such as 3D reconstruction, multi-step scene editing, 4D physical interaction, and 2D document editing, etc. Empirically, we found VIGA substantially improves one-shot baselines on BlenderGym (35.32%) and SlideBench (117.17%). Moreover, VIGA is also model-agnostic as it doesn't require finetuning, enabling a unified protocol to evaluate heterogeneous foundation VLMs. To better support this protocol, we introduce BlenderBench, a challenging benchmark that stress-tests interleaved multimodal reasoning with graphics engine, where VIGA improves by 124.70%.

Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理