MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

📄 arXiv: 2508.20453v1 📥 PDF

作者: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow

分类: cs.CL

发布日期: 2025-08-28

🔗 代码/项目: GITHUB


💡 一句话要点

MCP-Bench:通过MCP服务器评估LLM智能体在复杂真实世界任务中的工具使用能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具使用 基准测试 多步骤任务 模型上下文协议

📋 核心要点

  1. 现有基准测试在评估LLM智能体在复杂、多步骤真实世界任务中的工具使用、跨工具协调和规划能力方面存在不足。
  2. MCP-Bench通过MCP服务器连接LLM到多个领域的工具,构建真实的多步骤任务,并提供多方面的评估框架。
  3. 实验结果表明,即使是先进的LLM在MCP-Bench中仍然面临挑战,突出了该基准的价值和未来研究方向。

📝 摘要(中文)

本文提出了MCP-Bench,一个用于评估大型语言模型(LLMs)在真实、多步骤任务中表现的基准,这些任务需要工具使用、跨工具协调、精确的参数控制以及规划/推理能力来解决。MCP-Bench构建于模型上下文协议(MCP)之上,将LLMs连接到28个具有代表性的实时MCP服务器,涵盖金融、旅游、科学计算和学术搜索等领域的250个工具。与以往基于API的基准不同,每个MCP服务器提供一组协同工作的互补工具,从而能够构建具有丰富输入输出耦合的真实多步骤任务。MCP-Bench中的任务测试智能体从模糊指令中检索相关工具(无需显式工具名称)、为复杂目标规划多跳执行轨迹、根据中间工具输出进行响应以及编排跨领域工作流的能力——这些能力无法通过依赖显式工具规范、浅层少步骤工作流和孤立领域操作的现有基准充分评估。我们提出了一个多方面的评估框架,涵盖工具级别的模式理解和使用、轨迹级别的规划以及任务完成情况。对20个先进LLM的实验表明,MCP-Bench中存在持续的挑战。代码和数据可在https://github.com/Accenture/mcp-bench获取。

🔬 方法详解

问题定义:现有的大语言模型工具使用评测基准通常依赖于明确的工具名称,流程较为简单,且局限于单一领域,难以真实反映复杂现实场景中工具使用的挑战。这些基准无法充分评估LLM在模糊指令下检索工具、规划多步执行路径以及跨领域协同的能力。

核心思路:MCP-Bench的核心在于构建一个基于MCP服务器的真实世界任务环境,其中包含多个领域的大量工具,这些工具之间可以相互协作,形成复杂的工作流。通过这种方式,可以更全面地评估LLM智能体在真实场景下的工具使用能力。

技术框架:MCP-Bench的整体框架包括以下几个关键组成部分:1) 一组MCP服务器,每个服务器提供多个互补的工具;2) 一系列基于这些工具构建的复杂任务,这些任务需要多步骤的工具调用和跨领域的协同;3) 一个多方面的评估框架,用于评估LLM在工具理解、轨迹规划和任务完成等方面的表现。

关键创新:MCP-Bench的关键创新在于其真实性和复杂性。与以往的基准相比,MCP-Bench的任务更加贴近真实世界的场景,需要LLM智能体具备更强的规划、推理和跨领域协同能力。此外,MCP-Bench还提供了一个多方面的评估框架,可以更全面地评估LLM的工具使用能力。

关键设计:MCP-Bench的关键设计包括:1) MCP服务器的设计,确保每个服务器提供的工具能够协同工作,形成复杂的工作流;2) 任务的设计,确保任务的复杂性和真实性,能够充分测试LLM的工具使用能力;3) 评估框架的设计,确保能够全面评估LLM在工具理解、轨迹规划和任务完成等方面的表现。具体的参数设置、损失函数、网络结构等技术细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

对20个先进LLM的实验表明,即使是最先进的模型在MCP-Bench中仍然面临挑战,这表明现有LLM在复杂工具使用方面仍有很大的改进空间。该基准测试揭示了LLM在工具理解、轨迹规划和跨领域协同方面的不足,为未来的研究提供了重要的方向。

🎯 应用场景

MCP-Bench可用于评估和改进LLM智能体在各种真实世界应用中的工具使用能力,例如智能助手、自动化工作流程、科学研究和金融分析等。通过使用MCP-Bench,可以开发出更智能、更可靠的LLM智能体,从而提高工作效率和决策质量,并推动人工智能技术在各行各业的应用。

📄 摘要(原文)

We introduce MCP-Bench, a benchmark for evaluating large language models (LLMs) on realistic, multi-step tasks that demand tool use, cross-tool coordination, precise parameter control, and planning/reasoning for solving tasks. Built on the Model Context Protocol (MCP), MCP-Bench connects LLMs to 28 representative live MCP servers spanning 250 tools across domains such as finance, traveling, scientific computing, and academic search. Unlike prior API-based benchmarks, each MCP server provides a set of complementary tools designed to work together, enabling the construction of authentic, multi-step tasks with rich input-output coupling. Tasks in MCP-Bench test agents' ability to retrieve relevant tools from fuzzy instructions without explicit tool names, plan multi-hop execution trajectories for complex objectives, ground responses in intermediate tool outputs, and orchestrate cross-domain workflows - capabilities not adequately evaluated by existing benchmarks that rely on explicit tool specifications, shallow few-step workflows, and isolated domain operations. We propose a multi-faceted evaluation framework covering tool-level schema understanding and usage, trajectory-level planning, and task completion. Experiments on 20 advanced LLMs reveal persistent challenges in MCP-Bench. Code and data: https://github.com/Accenture/mcp-bench.