AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios
作者: Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He
分类: cs.CV
发布日期: 2026-02-26
备注: The project website is available at \url{https://agentvista-bench.github.io/}, and the code is available at \url{https://github.com/hkust-nlp/AgentVista}
💡 一句话要点
AgentVista:提出一个超高难度真实视觉场景下的多模态Agent评估基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态Agent 视觉场景 工具使用 基准评估 长期推理
📋 核心要点
- 现有基准主要评估单轮视觉推理或特定工具技能,未能充分捕捉实际Agent所需的真实性、视觉微妙性和长期工具使用。
- AgentVista通过结合真实视觉场景与自然混合工具使用,构建了一个更具挑战性的多模态Agent评估环境。
- 实验表明,现有最佳模型在AgentVista上的表现仍有较大提升空间,突显了长期多模态工具使用的挑战性。
📝 摘要(中文)
本文提出了AgentVista,一个用于评估通用多模态Agent的基准,涵盖7个类别下的25个子领域。该基准将现实且细节丰富的视觉场景与自然的混合工具使用相结合。任务需要跨模态的长期工具交互,包括网页搜索、图像搜索、页面导航以及用于图像处理和通用编程的基于代码的操作。对现有先进模型的全面评估揭示了它们在执行长期多模态工具使用方面的显著差距。即使是评估中最好的模型,带有工具的Gemini-3-Pro,也仅实现了27.3%的总体准确率,并且困难的实例可能需要超过25个工具调用轮次。我们期望AgentVista能够加速开发更强大、更可靠的多模态Agent,以解决现实且极具挑战性的问题。
🔬 方法详解
问题定义:现有多模态Agent评估基准缺乏真实性和长期性,无法有效评估Agent在复杂视觉场景下进行多步骤工具交互的能力。现有方法主要集中于单轮视觉推理或特定工具技能的评估,忽略了实际应用中Agent需要处理的视觉细节、长期规划和跨模态信息融合。
核心思路:AgentVista的核心思路是构建一个包含真实、细节丰富的视觉场景,并需要Agent进行长期工具交互的任务环境。通过模拟真实世界的问题解决流程,Agent需要利用多种工具(如网页搜索、图像搜索、代码执行等)来完成任务,从而更全面地评估Agent的通用能力。
技术框架:AgentVista基准包含7个类别下的25个子领域,每个子领域都包含多个任务。任务流程通常涉及以下几个阶段:1) Agent接收包含视觉信息的任务描述;2) Agent根据任务需求选择合适的工具;3) Agent调用工具并获取反馈;4) Agent根据反馈调整策略,并重复步骤2和3,直到完成任务。基准提供了一系列评估指标,用于衡量Agent的准确率、效率和鲁棒性。
关键创新:AgentVista的关键创新在于其真实性和复杂性。与现有基准相比,AgentVista的视觉场景更加逼真,任务流程更加复杂,需要Agent进行更长时间的规划和推理。此外,AgentVista还引入了多种工具,要求Agent具备跨模态信息融合和工具使用的能力。
关键设计:AgentVista的任务设计考虑了多种因素,包括视觉信息的复杂性、工具使用的难度和任务流程的长度。为了保证任务的公平性和可重复性,AgentVista提供了一系列预处理工具和评估脚本。此外,AgentVista还允许用户自定义任务和评估指标,以满足不同的研究需求。
📊 实验亮点
实验结果表明,即使是目前最先进的模型Gemini-3-Pro(带有工具)在AgentVista上的总体准确率仅为27.3%。一些困难的实例需要超过25个工具调用轮次才能完成。这表明现有模型在长期多模态工具使用方面仍存在显著差距,AgentVista为未来的研究提供了明确的方向。
🎯 应用场景
AgentVista可用于评估和提升多模态Agent在现实世界中的问题解决能力,例如故障排除、旅行规划、智能助手等。通过在该基准上进行训练和评估,可以开发出更强大、更可靠的Agent,从而在工业、医疗、教育等领域实现更广泛的应用。
📄 摘要(原文)
Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.