Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning
作者: Shaofeng Yin, Jiaxin Ge, Zora Zhiruo Wang, Xiuyu Li, Michael J. Black, Trevor Darrell, Angjoo Kanazawa, Haiwen Feng
分类: cs.CV, cs.AI, cs.GR
发布日期: 2026-01-16
💡 一句话要点
提出VIGA:通过交错多模态推理实现视觉逆向图形Agent,用于场景重建与编辑。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉逆向图形 多模态推理 场景重建 场景编辑 视觉语言模型 图形引擎 迭代优化
📋 核心要点
- 现有视觉语言模型在视觉逆向图形任务中,缺乏精细的空间和物理基础能力,难以一次性完成场景重建与编辑。
- VIGA通过闭环的写-运行-渲染-比较-修改程序,迭代执行和验证,实现交错多模态推理,从而重建或编辑场景。
- VIGA在BlenderGym和SlideBench等基准测试中,显著提高了one-shot基线的性能,并在BlenderBench上取得了124.70%的提升。
📝 摘要(中文)
视觉逆向图形,即将图像重建为可编辑的图形程序,是计算机视觉领域一个长期目标。然而,即使是强大的视觉语言模型(VLM)也无法一次性实现这一目标,因为它们缺乏精细的空间和物理基础能力。本文的核心观点是,弥合这一差距需要通过迭代执行和验证进行交错多模态推理。基于此,我们提出了VIGA(Vision-as-Inverse-Graphic Agent),它从一个空的世界开始,通过闭环的写-运行-渲染-比较-修改程序来重建或编辑场景。为了支持长时程推理,VIGA结合了(i)交替生成器和验证器角色的技能库和(ii)包含计划、代码差异和渲染历史的演化上下文记忆。VIGA是任务无关的,因为它不需要辅助模块,涵盖了广泛的任务,如3D重建、多步场景编辑、4D物理交互和2D文档编辑等。实验表明,VIGA在BlenderGym(35.32%)和SlideBench(117.17%)上显著提高了one-shot基线的性能。此外,VIGA也是模型无关的,因为它不需要微调,从而能够使用统一的协议来评估异构的基础VLM。为了更好地支持这个协议,我们引入了BlenderBench,这是一个具有挑战性的基准,用于压力测试具有图形引擎的交错多模态推理,VIGA在该基准上提高了124.70%。
🔬 方法详解
问题定义:论文旨在解决视觉逆向图形问题,即如何将图像重建为可编辑的图形程序。现有方法,特别是one-shot的视觉语言模型,难以实现精细的空间和物理推理,导致重建和编辑效果不佳。痛点在于缺乏迭代优化和验证机制,无法有效利用图形引擎的反馈。
核心思路:论文的核心思路是通过交错多模态推理,模拟人类的创作过程,即先写代码(生成图形指令),然后运行代码(渲染图像),再比较结果(与目标图像对比),最后修改代码(优化图形指令)。这种迭代过程能够逐步逼近目标,并利用图形引擎的反馈进行修正。
技术框架:VIGA的整体架构是一个闭环系统,包含以下主要模块:1) 技能库:包含生成器和验证器,生成器负责生成图形代码,验证器负责评估渲染结果。2) 上下文记忆:存储计划、代码差异和渲染历史,用于长时程推理。3) 图形引擎:用于渲染生成的图形代码,提供视觉反馈。流程如下:从空场景开始,生成器生成初始代码,图形引擎渲染图像,验证器比较渲染结果与目标图像,根据差异修改代码,重复此过程直到满足停止条件。
关键创新:最重要的技术创新点在于交错多模态推理框架,它将视觉语言模型与图形引擎紧密结合,通过迭代优化和验证,实现了更精确的场景重建和编辑。与现有方法的本质区别在于,VIGA不是一次性生成结果,而是通过闭环反馈不断改进。
关键设计:技能库中的生成器和验证器可以使用不同的视觉语言模型,无需微调。上下文记忆的设计允许VIGA跟踪历史状态,避免重复错误。损失函数的设计需要考虑渲染结果与目标图像之间的差异,例如可以使用像素级别的L1或L2损失,以及感知损失等。停止条件可以基于验证器的评估结果,例如当差异小于某个阈值时停止迭代。
📊 实验亮点
VIGA在BlenderGym上取得了35.32%的性能提升,在SlideBench上取得了117.17%的显著提升。更重要的是,VIGA在作者提出的BlenderBench基准测试中,性能提升高达124.70%,充分证明了其在交错多模态推理方面的优势。这些实验结果表明,VIGA能够有效利用图形引擎的反馈,实现更精确的场景重建和编辑。
🎯 应用场景
VIGA具有广泛的应用前景,包括3D内容创作、虚拟现实/增强现实、游戏开发、机器人视觉等领域。它可以用于自动生成3D模型、编辑现有场景、模拟物理交互,甚至可以应用于2D文档编辑。该研究的实际价值在于降低了3D内容创作的门槛,提高了效率,并为未来的智能体设计提供了新的思路。
📄 摘要(原文)
Vision-as-inverse-graphics, the concept of reconstructing an image as an editable graphics program is a long-standing goal of computer vision. Yet even strong VLMs aren't able to achieve this in one-shot as they lack fine-grained spatial and physical grounding capability. Our key insight is that closing this gap requires interleaved multimodal reasoning through iterative execution and verification. Stemming from this, we present VIGA (Vision-as-Inverse-Graphic Agent) that starts from an empty world and reconstructs or edits scenes through a closed-loop write-run-render-compare-revise procedure. To support long-horizon reasoning, VIGA combines (i) a skill library that alternates generator and verifier roles and (ii) an evolving context memory that contains plans, code diffs, and render history. VIGA is task-agnostic as it doesn't require auxiliary modules, covering a wide range of tasks such as 3D reconstruction, multi-step scene editing, 4D physical interaction, and 2D document editing, etc. Empirically, we found VIGA substantially improves one-shot baselines on BlenderGym (35.32%) and SlideBench (117.17%). Moreover, VIGA is also model-agnostic as it doesn't require finetuning, enabling a unified protocol to evaluate heterogeneous foundation VLMs. To better support this protocol, we introduce BlenderBench, a challenging benchmark that stress-tests interleaved multimodal reasoning with graphics engine, where VIGA improves by 124.70%.