AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

📄 arXiv: 2602.23166 📥 PDF

作者: Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

AgentVista:提出一个超高难度真实视觉场景下的多模态Agent评估基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态Agent 视觉场景 工具使用 长期交互 评估基准

📋 核心要点

  1. 现有基准测试未能充分捕捉到实际Agent所需的真实性、视觉微妙性和长期工具使用能力。
  2. AgentVista通过结合真实视觉场景与自然混合工具使用,构建了一个更具挑战性的多模态Agent评估环境。
  3. 实验表明,现有最佳模型在AgentVista上的性能仍有很大提升空间,突显了长期多模态工具使用的挑战性。

📝 摘要(中文)

本文提出了AgentVista,一个用于评估通用多模态Agent的基准,涵盖7个类别下的25个子领域。该基准结合了真实且细节丰富的视觉场景与自然的混合工具使用。任务需要跨模态的长期工具交互,包括网页搜索、图像搜索、页面导航以及基于代码的图像处理和通用编程操作。对现有先进模型的全面评估揭示了它们在执行长期多模态工具使用方面的显著差距。即使是评估中最好的模型,带有工具的Gemini-3-Pro,也仅实现了27.3%的总体准确率,并且困难的实例可能需要超过25个工具调用轮次。我们期望AgentVista能够加速开发更强大和可靠的多模态Agent,以解决现实且极具挑战性的问题。

🔬 方法详解

问题定义:现有多模态Agent评估基准主要集中于单轮视觉推理或特定工具技能,缺乏对真实世界场景中长期、复杂工具使用的全面评估。这使得评估结果难以反映Agent在实际应用中的能力,尤其是在需要处理细节丰富的视觉信息并进行多步骤工具交互的任务中。

核心思路:AgentVista的核心思路是构建一个更贴近真实世界的评估环境,通过引入复杂视觉场景和自然的混合工具使用,来测试Agent在长期多模态交互中的能力。这种设计旨在暴露现有模型在处理复杂视觉信息、规划长期任务和有效利用工具方面的不足。

技术框架:AgentVista基准包含7个类别下的25个子领域,每个任务都包含一个真实且细节丰富的视觉场景。Agent需要通过一系列工具(如网页搜索、图像搜索、页面导航、代码执行等)进行交互,以完成任务。评估过程关注Agent在长期交互中的表现,包括工具选择、信息提取、任务规划和错误处理等方面。

关键创新:AgentVista的关键创新在于其对真实世界场景的模拟和对长期多模态工具使用的强调。与现有基准相比,AgentVista的任务更复杂、更具挑战性,能够更全面地评估Agent的实际应用能力。此外,AgentVista还提供了一个统一的评估平台,方便研究人员进行模型比较和算法改进。

关键设计:AgentVista的任务设计考虑了多种因素,包括视觉信息的复杂性、工具使用的多样性、任务规划的难度等。为了保证评估的公平性和可重复性,AgentVista提供了一套标准的评估指标和流程。此外,AgentVista还提供了一系列工具和API,方便研究人员进行模型开发和调试。

📊 实验亮点

实验结果表明,即使是目前最先进的模型Gemini-3-Pro(带有工具)在AgentVista上的总体准确率仅为27.3%。更困难的实例可能需要超过25个工具调用轮次才能完成。这突显了现有模型在处理长期多模态工具使用任务方面的巨大差距,表明AgentVista是一个具有挑战性且有价值的评估基准。

🎯 应用场景

AgentVista的研究成果可应用于开发更智能、更可靠的多模态Agent,这些Agent可以应用于故障排除、旅行规划、智能助手等领域。通过提高Agent在复杂视觉场景下的理解和推理能力,可以实现更高效、更人性化的自动化服务,从而提升用户体验和生产效率。

📄 摘要(原文)

Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.