How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

作者: Huanyu Zhang, Xuehai Bai, Chengzu Li, Chen Liang, Haochen Tian, Haodong Li, Ruichuan An, Yifan Zhang, Anna Korhonen, Zhang Zhang, Liang Wang, Tieniu Tan

分类: cs.CV

发布日期: 2026-02-02

备注: https://vibe-benchmark.github.io/

💡 一句话要点

VIBE：一个用于视觉指令驱动图像编辑的系统性评测基准。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉指令 图像编辑 评测基准 多模态学习 人机交互

📋 核心要点

现有图像编辑基准主要依赖文本引导，忽略了人类交流中重要的视觉指令，无法有效评估模型对空间和结构意图的理解。
VIBE基准通过三级交互层次结构，捕捉指示性定位、形态操作和因果推理，系统性地评估模型对视觉指令的遵循能力。
实验结果表明，专有模型在视觉指令遵循方面优于开源模型，但随着任务难度增加，所有模型的性能均显著下降，表明仍有提升空间。

📝 摘要（中文）

近年来，生成模型在图像编辑方面取得了显著进展。然而，现有的系统和基准主要依赖于文本引导。相比之下，人类交流本质上是多模态的，其中草图等视觉指令可以有效地传达空间和结构意图。为了弥补这一差距，我们推出了VIBE，即视觉指令图像编辑基准，它具有一个三级交互层次结构，捕捉指示性定位、形态操作和因果推理。在这些层面上，我们策划了高质量和多样化的测试用例，这些用例反映了视觉指令遵循中逐渐增加的复杂性。我们进一步提出了一个强大的LMM-as-a-judge评估框架，该框架具有特定于任务的指标，以实现可扩展和细粒度的评估。通过对17个具有代表性的开源和专有图像编辑模型进行全面评估，我们发现专有模型表现出早期的视觉指令遵循能力，并且始终优于开源模型。然而，即使对于最强大的系统，性能也会随着任务难度的增加而显著下降，这突出了未来研究的有希望的方向。

🔬 方法详解

问题定义：现有图像编辑方法和基准测试主要依赖于文本指令，缺乏对视觉指令（如草图）的有效利用和评估。这限制了模型理解和执行复杂空间和结构编辑任务的能力，无法真实反映人类交互的自然方式。现有方法难以处理指示性定位、形态操作和因果推理等视觉指令中蕴含的复杂信息。

核心思路：VIBE的核心思路是构建一个多层次的视觉指令图像编辑基准，该基准包含不同复杂度的任务，能够系统性地评估模型对视觉指令的理解和执行能力。通过引入高质量和多样化的测试用例，并结合任务特定的评估指标，VIBE旨在推动视觉指令驱动图像编辑领域的发展。

技术框架：VIBE基准包含三个层次的交互：指示性定位（Deictic Grounding）、形态操作（Morphological Manipulation）和因果推理（Causal Reasoning）。每个层次都包含多个测试用例，这些用例的复杂性逐渐增加。此外，论文还提出了一个基于大型多模态模型（LMM）的自动评估框架，该框架使用任务特定的指标来评估模型的编辑结果。

关键创新：VIBE的关键创新在于：1）首次提出了一个专门针对视觉指令驱动图像编辑的系统性评测基准；2）设计了一个三级交互层次结构，能够全面评估模型对不同类型视觉指令的理解能力；3）提出了一个基于LMM的自动评估框架，能够实现可扩展和细粒度的评估。与现有方法相比，VIBE更侧重于评估模型对视觉信息的理解和利用能力，而非仅仅依赖文本指令。

关键设计：VIBE基准的测试用例设计考虑了多样性和高质量，涵盖了各种场景和编辑类型。LMM-as-a-judge评估框架使用任务特定的指标，例如IoU（交并比）和像素级精度，来评估编辑结果的质量。具体参数设置和网络结构的选择取决于所评估的图像编辑模型。

🖼️ 关键图片

📊 实验亮点

通过对17个图像编辑模型的评估，VIBE基准揭示了现有模型在视觉指令遵循方面的不足。实验结果表明，专有模型在早期阶段表现出一定的视觉指令遵循能力，但随着任务难度增加，性能显著下降。例如，在因果推理任务上，所有模型的性能都远低于人类水平，这表明该领域仍有很大的提升空间。

🎯 应用场景

VIBE基准的提出将推动视觉指令驱动图像编辑技术的发展，可应用于智能设计、人机交互、虚拟现实等领域。例如，用户可以通过简单的草图或视觉示例来指导图像编辑，从而实现更自然、更高效的图像处理。该研究还有助于提升AI系统对多模态信息的理解和推理能力。

📄 摘要（原文）

Recent generative models have achieved remarkable progress in image editing. However, existing systems and benchmarks remain largely text-guided. In contrast, human communication is inherently multimodal, where visual instructions such as sketches efficiently convey spatial and structural intent. To address this gap, we introduce VIBE, the Visual Instruction Benchmark for Image Editing with a three-level interaction hierarchy that captures deictic grounding, morphological manipulation, and causal reasoning. Across these levels, we curate high-quality and diverse test cases that reflect progressively increasing complexity in visual instruction following. We further propose a robust LMM-as-a-judge evaluation framework with task-specific metrics to enable scalable and fine-grained assessment. Through a comprehensive evaluation of 17 representative open-source and proprietary image editing models, we find that proprietary models exhibit early-stage visual instruction-following capabilities and consistently outperform open-source models. However, performance degrades markedly with increasing task difficulty even for the strongest systems, highlighting promising directions for future research.

How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理