Beyond Seeing: Evaluating Multimodal LLMs on Tool-Enabled Image Perception, Transformation, and Reasoning
作者: Xingang Guo, Utkarsh Tyagi, Advait Gosai, Paula Vergara, Jayeon Park, Ernesto Gabriel Hernández Montoya, Chen Bo Calvin Zhang, Bin Hu, Yunzhong He, Bing Liu, Rakshith Sharma Srinivasa
分类: cs.CV, cs.AI
发布日期: 2025-10-14 (更新: 2025-10-24)
💡 一句话要点
提出VisualToolBench,评估多模态LLM在工具辅助下的图像感知、转换和推理能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉工具使用 图像感知 图像转换 视觉推理 基准测试 工具集成
📋 核心要点
- 现有MLLM基准测试主要关注静态图像理解,忽略了图像操作和工具集成在复杂任务中的重要性。
- VisualToolBench旨在评估MLLM在“思考图像”范式下的能力,通过图像转换和工具使用解决复杂视觉-文本任务。
- 实验表明,现有MLLM在有效整合视觉和通用工具方面存在困难,即使是GPT-5-think的通过率也仅为18.68%。
📝 摘要(中文)
多模态大型语言模型(MLLM)越来越多地应用于实际场景,在这些场景中,用户提供的图像往往是不完美的,需要主动的图像操作,如裁剪、编辑或增强,以揭示显著的视觉线索。除了静态的视觉感知,MLLM还必须能够“思考图像”:动态地转换视觉内容,并将其与其他工具集成,以解决复杂的任务。然而,这种从将视觉视为被动上下文到将其视为可操作的认知工作空间的转变仍未得到充分探索。大多数现有的基准测试仍然遵循“思考图像”的范式,其中图像被视为静态输入。为了解决这一差距,我们引入了VisualToolBench,这是一个视觉工具使用推理基准,它严格评估了MLLM在“思考图像”范式下感知、转换和推理复杂视觉-文本任务的能力。VisualToolBench包含1204个具有挑战性的、开放式的视觉任务(603个单轮,601个多轮),跨越五个不同的领域,每个任务都配有详细的评分标准,以实现系统的评估。我们的评估表明,当前的MLLM在需要有效整合视觉和通用工具的任务中表现不佳。即使是最强的模型(GPT-5-think)也仅达到18.68%的通过率。我们进一步观察到不同的工具使用行为,OpenAI模型受益于多样化的图像操作,而Gemini-2.5-pro则没有表现出任何改进。通过引入第一个以“思考图像”为中心的基准,VisualToolBench为推进MLLM中的视觉智能提供了关键见解。
🔬 方法详解
问题定义:现有MLLM基准测试主要关注静态图像理解,无法有效评估模型在需要主动图像操作和工具集成的复杂视觉推理任务中的能力。现有方法将图像视为被动输入,忽略了图像作为可操作的认知工作空间的潜力。这种“思考图像”能力的不足限制了MLLM在实际应用中的表现。
核心思路:论文的核心思路是构建一个能够全面评估MLLM在“思考图像”范式下能力的基准测试,即VisualToolBench。该基准测试包含需要模型主动操作图像(例如裁剪、编辑、增强)并结合外部工具来解决的复杂视觉-文本任务。通过这种方式,可以更真实地评估MLLM在实际应用场景中的表现。
技术框架:VisualToolBench包含1204个具有挑战性的、开放式的视觉任务,分为单轮和多轮两种类型,涵盖五个不同的领域。每个任务都配有详细的评分标准,用于系统地评估MLLM的性能。评估过程涉及让MLLM使用各种图像处理工具和通用工具来解决任务,并根据其输出结果进行评分。
关键创新:VisualToolBench是第一个以“思考图像”为中心的基准测试,它强调了图像操作和工具集成在复杂视觉推理任务中的重要性。与现有基准测试相比,VisualToolBench更侧重于评估MLLM在动态环境下的视觉智能,更贴近实际应用场景。
关键设计:VisualToolBench的任务设计涵盖了多种图像操作类型,例如裁剪、编辑和增强。同时,任务也需要模型能够有效地利用各种通用工具,例如搜索引擎和计算器。评分标准的设计考虑了任务的复杂性和模型的输出质量,旨在全面评估MLLM的性能。具体的参数设置和网络结构取决于被评估的MLLM模型,VisualToolBench本身不涉及特定的模型结构设计。
📊 实验亮点
实验结果表明,即使是最强的MLLM模型(GPT-5-think)在VisualToolBench上的通过率也仅为18.68%,表明现有模型在有效整合视觉和通用工具方面存在显著不足。此外,不同模型在工具使用行为上存在差异,OpenAI模型受益于多样化的图像操作,而Gemini-2.5-pro则没有表现出改进。这些发现为未来的MLLM研究提供了重要的方向。
🎯 应用场景
VisualToolBench的研究成果可应用于开发更智能、更实用的多模态LLM,这些模型能够更好地理解和处理现实世界中的复杂视觉信息。潜在应用领域包括智能助手、自动驾驶、医疗诊断、图像编辑和增强等。通过提升MLLM的“思考图像”能力,可以实现更高效、更准确的视觉任务处理。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) are increasingly applied in real-world scenarios where user-provided images are often imperfect, requiring active image manipulations such as cropping, editing, or enhancement to uncover salient visual cues. Beyond static visual perception, MLLMs must also think with images: dynamically transforming visual content and integrating it with other tools to solve complex tasks. However, this shift from treating vision as passive context to a manipulable cognitive workspace remains underexplored. Most existing benchmarks still follow a think about images paradigm, where images are regarded as static inputs. To address this gap, we introduce VisualToolBench, a visual tool-use reasoning benchmark that rigorously evaluates MLLMs' ability to perceive, transform, and reason across complex visual-textual tasks under the think-with-images paradigm. VisualToolBench comprises 1,204 challenging, open-ended vision tasks (603 single-turn, 601 multi-turn) spanning across five diverse domains, each paired with detailed rubrics to enable systematic evaluation. Our evaluation shows that current MLLMs struggle with tasks requiring effective integration of vision and general-purpose tools. Even the strongest model (GPT-5-think) reaches only 18.68% pass rate. We further observe divergent tool-use behaviors, with OpenAI models benefiting from diverse image manipulations while Gemini-2.5-pro shows no improvement. By introducing the first benchmark centered on think with images, VisualToolBench offers critical insights for advancing visual intelligence in MLLMs.