Do Multimodal Agents Really Benefit from Tool Use? A Systematic Study of Capability Gains

📄 arXiv: 2606.02357v1 📥 PDF

作者: Garvin Guo, Donglei Yu, Yu Chen, Xiang Wang, Shuai Li, Xinpei Zhao, Huaxing Liu, Qinghao Wang, Minpeng Liao

分类: cs.CV, cs.AI

发布日期: 2026-06-01


💡 一句话要点

研究表明多模态Agent工具使用收益可能被高估,工具调用不代表能力提升

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态Agent 工具使用 能力评估 图像理解 消融实验

📋 核心要点

  1. 现有研究倾向于将工具增强的多模态Agent在基准测试中的提升归功于工具使用能力的习得,但这种解释可能过于草率。
  2. 本文通过对比工具增强Agent与无工具Agent,以及纯文本推理器,来评估工具的实际贡献,并分析工具调用与能力提升之间的关系。
  3. 实验结果表明,工具的使用并没有带来显著且持续的性能提升,Agent更多地学习了工具调用模式,而非真正利用工具扩展自身能力。

📝 摘要(中文)

本文对工具增强的多模态Agent在基准测试中表现出的性能提升提出质疑,认为仅仅依靠工具调用轨迹并不能证明Agent真正学会了使用工具。研究选取了两个代表性的“图像思考”Agent,Thyme和DeepEyesV2,并在真实世界理解、OCR、图表理解和数学推理等任务上,将它们与无工具版本以及仅使用文本的推理器进行比较。结果表明,工具的使用并没有带来持续的性能提升,也没有显著降低token生成成本,并且只有极少一部分问题只能通过工具解决。进一步的机制消融实验表明,完整的工具使用循环并没有始终优于单独的工具调用格式或返回的执行结果。研究表明,Agent更可靠地学习了工具调用模式,而非工具贡献的能力,因此评估应区分工具可用性与工具实际扩展Agent解决问题的能力。

🔬 方法详解

问题定义:现有研究常常将多模态Agent在基准测试中取得的性能提升直接归因于工具的使用,而忽略了工具调用本身并不一定意味着Agent真正理解并利用了工具提供的关键信息。因此,需要更深入地分析工具在Agent解决问题过程中所起的作用,以及工具调用与Agent能力提升之间的关系。现有方法缺乏对工具使用收益的系统性评估,容易高估工具的实际贡献。

核心思路:本文的核心思路是通过对比工具增强的Agent与无工具Agent,以及纯文本推理器,来评估工具的实际贡献。通过分析Agent在不同任务上的表现,以及对工具使用过程进行消融实验,来判断Agent是否真正利用了工具提供的关键信息,还是仅仅学习了工具调用模式。

技术框架:本文采用对比实验和消融实验相结合的方法。首先,选择两个代表性的“图像思考”Agent(Thyme和DeepEyesV2),并在四个不同的任务(真实世界理解、OCR、图表理解和数学推理)上进行测试。然后,将每个Agent与其无工具版本以及纯文本推理器进行比较,评估工具的整体贡献。最后,通过消融实验,分析工具使用循环中不同组成部分(工具调用格式、执行结果等)的作用。

关键创新:本文的关键创新在于对多模态Agent工具使用收益的系统性评估。通过对比实验和消融实验,揭示了工具调用并不一定代表能力提升,Agent可能更多地学习了工具调用模式,而非真正利用工具扩展自身能力。这种评估方法可以更准确地衡量工具的实际贡献,并为未来的研究提供更可靠的依据。

关键设计:在实验设计方面,本文选择了具有代表性的多模态Agent(Thyme和DeepEyesV2)和四个不同的任务,以保证结果的普遍性。在消融实验方面,本文对工具使用循环的不同组成部分进行了分析,以更深入地了解工具的作用机制。此外,本文还考虑了token生成成本等因素,以更全面地评估工具的性能。

📊 实验亮点

实验结果表明,工具的使用并没有带来持续的性能提升,也没有显著降低token生成成本。DeepEyesV2和Thyme分别有93%和96%的工具解决的问题也能被非工具设置解决。消融实验表明,完整的工具使用循环并没有始终优于单独的工具调用格式或返回的执行结果。

🎯 应用场景

该研究成果可应用于多模态Agent的设计与评估,帮助研究人员更准确地评估工具的实际贡献,避免过度依赖工具调用作为能力提升的指标。同时,该研究也为未来的Agent设计提供了新的思路,即应更加注重Agent对工具的理解和利用,而非仅仅是工具调用。

📄 摘要(原文)

Tool-augmented multimodal agents show strong benchmark gains, often taken as evidence that agents have learned to use tools. We argue that this interpretation can be premature: a tool-call trace alone does not show whether the tool supplied answer-critical information. We study two representative ``thinking with images'' agents, Thyme and DeepEyesV2, across real-world understanding, OCR, chart understanding, and mathematical reasoning. Each agent is compared with its Tool-Free counterpart and with a Pure-Text Reasoner trained from the same source pool without tool-calling trajectories. Tool access yields little consistent aggregate improvement, does not reliably reduce generated-token cost, and leaves only a small tool-only solved set: 93% of DeepEyesV2's tool-solved problems and 96% of Thyme's are also solved by at least one non-tool setting. Mechanism ablations further show that the full tool-use loop does not consistently outperform either the tool-call format or the returned execution result alone. In the settings we study, the analyzed agents appear to learn tool-calling patterns more reliably than tool-contributed capabilities, suggesting that evaluation should distinguish tool availability from whether tools actually expand what agents can solve.