VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
作者: Xuanyu Zhu, Yuhao Dong, Rundong Wang, Yang Shi, Zhipeng Wu, Yinlun Peng, YiFan Zhang, Yihang Lou, Yuanxing Zhang, Ziwei Liu, Yan Bai, Yuan Zhou
分类: cs.AI
发布日期: 2026-03-16
💡 一句话要点
VTC-Bench:通过组合式视觉工具链评估Agentic多模态模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉工具链 Agentic模型 基准测试 计算机视觉 工具使用 OpenCV 多步骤推理
📋 核心要点
- 现有基准测试在评估模型在实际场景下的工具使用能力方面存在不足,无法捕捉复杂和多样化的工具交互。
- VTC-Bench通过构建包含32个OpenCV视觉操作的工具集,并提供多步骤执行轨迹,来评估模型的多工具组合和长时程计划能力。
- 实验结果表明,现有MLLM在适应不同工具集和泛化到未见操作方面存在局限性,多工具组合仍然是一个挑战。
📝 摘要(中文)
本文提出VisualToolChain-Bench (VTC-Bench),一个综合性的基准测试,旨在评估多模态大语言模型(MLLMs)的工具使用能力。该基准模拟真实的计算机视觉流程,包含32个基于OpenCV的视觉操作,支持广泛的工具组合,从而能够严格评估多工具组合和长时程、多步骤的计划执行。VTC-Bench包含680个精心策划的问题,这些问题按照九个类别的认知层级进行组织,并提供ground-truth执行轨迹,以便进行精确评估。对19个领先的MLLM的广泛实验表明,当前模型在视觉Agentic能力方面存在关键局限性。模型难以适应不同的工具集并泛化到未见过的操作。Gemini-3.0-Pro在VTC-Bench上仅达到51%的准确率。多工具组合仍然是一个持续的挑战。在面对复杂任务时,模型难以制定有效的执行计划,严重依赖于一小组熟悉的、次优的函数,而不是选择最优工具。VTC-Bench旨在通过识别这些根本性挑战,为开发更通用的视觉Agentic模型建立严格的基线。
🔬 方法详解
问题定义:现有MLLM虽然在视觉任务上取得了进展,但其利用外部工具进行复杂视觉任务的能力仍然有限。现有的基准测试工具集稀疏,工具使用轨迹简单,无法充分评估模型在实际场景下的工具使用能力,尤其是在多工具组合和长时程计划执行方面。
核心思路:VTC-Bench的核心思路是构建一个更贴近实际计算机视觉流程的基准测试,通过提供更丰富的工具集(32个OpenCV操作)和更复杂的任务场景(多步骤执行轨迹),来更全面地评估MLLM的工具使用能力。这样设计的目的是为了暴露现有模型在工具选择、组合和泛化方面的不足。
技术框架:VTC-Bench框架包含以下几个主要组成部分:1) 一个包含32个基于OpenCV的视觉操作的工具集;2) 一组包含680个精心策划的问题,这些问题按照九个类别的认知层级进行组织;3) 每个问题都提供ground-truth执行轨迹,用于精确评估模型性能。整个流程是,给定一个视觉任务,模型需要选择合适的工具并按照正确的顺序执行,最终得到正确的结果。评估指标是模型生成的执行轨迹与ground-truth执行轨迹的匹配程度。
关键创新:VTC-Bench的关键创新在于其构建了一个更具挑战性和现实意义的基准测试,能够更全面地评估MLLM的工具使用能力。与现有基准测试相比,VTC-Bench的工具集更丰富,任务场景更复杂,评估指标更精确。这使得VTC-Bench能够更好地暴露现有模型在工具选择、组合和泛化方面的不足。
关键设计:VTC-Bench的关键设计包括:1) 工具集的选择:选择了32个常用的OpenCV操作,覆盖了图像处理、目标检测、图像分割等多个方面;2) 任务场景的设计:设计了680个问题,这些问题按照九个类别的认知层级进行组织,从简单到复杂,逐步增加难度;3) 评估指标的设计:使用ground-truth执行轨迹作为评估标准,能够更精确地评估模型在工具选择和执行顺序方面的正确性。
🖼️ 关键图片
📊 实验亮点
在VTC-Bench上对19个领先的MLLM进行了评估,结果表明现有模型在视觉Agentic能力方面存在明显局限性。Gemini-3.0-Pro作为表现最佳的模型,在VTC-Bench上的准确率仅为51%。实验还表明,模型难以适应不同的工具集并泛化到未见过的操作,多工具组合仍然是一个挑战。
🎯 应用场景
VTC-Bench可用于评估和提升多模态大语言模型在计算机视觉任务中的Agentic能力,例如智能图像编辑、自动化视觉检测、机器人视觉导航等。通过VTC-Bench的评估,可以促进更强大的视觉Agent的开发,从而在工业自动化、智能安防、医疗诊断等领域发挥重要作用。
📄 摘要(原文)
Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench~(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51\% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.