Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

📄 arXiv: 2604.03016 📥 PDF

作者: Qianshan Wei, Yishan Yang, Siyi Wang, Jinglin Chen, Binyu Wang, Jiaming Wang, Shuang Chen, Zechen Li, Yang Shi, Yuqi Tang, Weining Wang, Yi Yu, Chaoyou Fu, Qi Li, Yi-Fan Zhang

分类: cs.AI

发布日期: 2026-04-06


💡 一句话要点

Agentic-MME:用于评估多模态智能体能力的流程验证基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大型语言模型 智能体能力评估 流程验证 基准数据集 视觉工具 知识扩展 过度思考

📋 核心要点

  1. 现有MLLM评估缺乏对工具调用的细粒度验证,无法判断工具是否被正确和高效地使用。
  2. Agentic-MME通过构建包含详细步骤注释的基准,实现对多模态智能体在问题解决过程中每一步骤的验证。
  3. 实验表明,即使是当前最佳模型在复杂任务上的表现也远低于人类水平,揭示了多模态智能体能力提升的巨大空间。

📝 摘要(中文)

多模态大型语言模型(MLLM)正从被动观察者演变为主动智能体,通过视觉扩展(调用视觉工具)和知识扩展(开放网络搜索)来解决问题。然而,现有的评估方法存在不足:缺乏灵活的工具集成,视觉和搜索工具的测试是分离的,并且主要通过最终答案进行评估。因此,无法验证工具是否被实际调用、正确应用或高效使用。为了解决这个问题,我们推出了Agentic-MME,这是一个用于多模态智能体能力的流程验证基准。它包含6个领域和3个难度级别的418个真实世界任务,以评估能力协同,并具有超过2,000个逐步检查点,每个任务平均需要10多个人工小时的手动注释。每个任务都包含一个统一的评估框架,支持沙盒代码和API,以及一个人工参考轨迹,该轨迹使用双轴(S轴和V轴)上的逐步检查点进行注释。为了实现真正的过程级验证,我们审核细粒度的中间状态,而不仅仅是最终答案,并通过相对于人类轨迹的过度思考指标来量化效率。实验结果表明,最佳模型Gemini3-pro的总体准确率达到56.3%,但在Level-3任务中显著下降至23.0%,突显了真实世界多模态智能体问题解决的难度。

🔬 方法详解

问题定义:现有MLLM的评估方法主要关注最终答案的正确性,忽略了智能体解决问题的过程,无法有效评估智能体对工具的调用和使用能力。这使得我们难以判断智能体是否真正理解问题并有效地利用外部知识和视觉信息来解决问题。

核心思路:Agentic-MME的核心思路是通过构建一个包含详细步骤注释的基准数据集,对智能体解决问题的每一步骤进行验证。通过对比智能体的行为和人类的参考轨迹,可以评估智能体是否正确地调用了工具、是否有效地利用了信息,以及是否存在过度思考等问题。

技术框架:Agentic-MME包含以下主要组成部分:1) 包含真实世界任务的数据集,涵盖多个领域和难度级别;2) 统一的评估框架,支持沙盒代码和API调用;3) 人工标注的参考轨迹,包含双轴(S轴和V轴)上的逐步检查点,用于验证智能体的行为;4) 评估指标,包括准确率和过度思考指标,用于量化智能体的性能和效率。

关键创新:Agentic-MME的关键创新在于其流程验证的方法。与传统的只关注最终答案的评估方法不同,Agentic-MME通过对智能体解决问题的每一步骤进行验证,可以更全面地评估智能体的能力。此外,Agentic-MME还引入了过度思考指标,用于量化智能体的效率。

关键设计:Agentic-MME的关键设计包括:1) 数据集的构建,需要保证任务的多样性和难度;2) 参考轨迹的标注,需要保证标注的准确性和一致性;3) 评估指标的选择,需要能够有效地量化智能体的性能和效率。数据集包含418个真实世界任务,分为6个领域和3个难度级别。每个任务都包含一个统一的评估框架,支持沙盒代码和API调用。人工标注的参考轨迹包含双轴(S轴和V轴)上的逐步检查点,用于验证智能体的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,当前最佳模型Gemini3-pro在Agentic-MME上的总体准确率为56.3%,但在Level-3任务上的准确率显著下降至23.0%。这表明,即使是当前最先进的模型在解决复杂的多模态智能体问题时仍然面临很大的挑战,需要进一步的研究和改进。

🎯 应用场景

Agentic-MME的研究成果可应用于多模态智能体的能力评估和提升,推动智能体在实际场景中的应用,例如智能助手、自动化报告生成、复杂问题求解等。通过该基准,可以更好地理解和改进多模态智能体的推理、规划和工具使用能力,使其更好地服务于人类。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) are evolving from passive observers into active agents, solving problems through Visual Expansion (invoking visual tools) and Knowledge Expansion (open-web search). However, existing evaluations fall short: they lack flexible tool integration, test visual and search tools separately, and evaluate primarily by final answers. Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently. To address this, we introduce Agentic-MME, a process-verified benchmark for Multimodal Agentic Capabilities. It contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task. Each task includes a unified evaluation framework supporting sandboxed code and APIs, alongside a human reference trajectory annotated with stepwise checkpoints along dual-axis: S-axis and V-axis. To enable true process-level verification, we audit fine-grained intermediate states rather than just final answers, and quantify efficiency via an overthinking metric relative to human trajectories. Experimental results show the best model, Gemini3-pro, achieves 56.3% overall accuracy, which falls significantly to 23.0% on Level-3 tasks, underscoring the difficulty of real-world multimodal agentic problem solving.