MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

作者: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow

分类: cs.CL

发布日期: 2025-08-28

🔗 代码/项目: GITHUB

💡 一句话要点

MCP-Bench：通过MCP服务器评估LLM智能体在复杂真实世界任务中的工具使用能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具使用 基准测试 多步骤任务 模型上下文协议

📋 核心要点

现有基准测试在评估LLM智能体在复杂、多步骤真实世界任务中的工具使用、跨工具协调和规划能力方面存在不足。
MCP-Bench通过MCP服务器连接LLM到多个领域的工具，构建真实的多步骤任务，并提供多方面的评估框架。
实验结果表明，即使是先进的LLM在MCP-Bench中仍然面临挑战，突出了该基准的价值和未来研究方向。

📝 摘要（中文）

本文提出了MCP-Bench，一个用于评估大型语言模型（LLMs）在真实、多步骤任务中表现的基准，这些任务需要工具使用、跨工具协调、精确的参数控制以及规划/推理能力来解决。MCP-Bench构建于模型上下文协议（MCP）之上，将LLMs连接到28个具有代表性的实时MCP服务器，涵盖金融、旅游、科学计算和学术搜索等领域的250个工具。与以往基于API的基准不同，每个MCP服务器提供一组协同工作的互补工具，从而能够构建具有丰富输入输出耦合的真实多步骤任务。MCP-Bench中的任务测试智能体从模糊指令中检索相关工具（无需显式工具名称）、为复杂目标规划多跳执行轨迹、根据中间工具输出进行响应以及编排跨领域工作流的能力——这些能力无法通过依赖显式工具规范、浅层少步骤工作流和孤立领域操作的现有基准充分评估。我们提出了一个多方面的评估框架，涵盖工具级别的模式理解和使用、轨迹级别的规划以及任务完成情况。对20个先进LLM的实验表明，MCP-Bench中存在持续的挑战。代码和数据可在https://github.com/Accenture/mcp-bench获取。

🔬 方法详解

问题定义：现有的大语言模型工具使用评测基准通常依赖于明确的工具名称，流程较为简单，且局限于单一领域，难以真实反映复杂现实场景中工具使用的挑战。这些基准无法充分评估LLM在模糊指令下检索工具、规划多步执行路径以及跨领域协同的能力。

核心思路：MCP-Bench的核心在于构建一个基于MCP服务器的真实世界任务环境，其中包含多个领域的大量工具，这些工具之间可以相互协作，形成复杂的工作流。通过这种方式，可以更全面地评估LLM智能体在真实场景下的工具使用能力。

技术框架：MCP-Bench的整体框架包括以下几个关键组成部分：1) 一组MCP服务器，每个服务器提供多个互补的工具；2) 一系列基于这些工具构建的复杂任务，这些任务需要多步骤的工具调用和跨领域的协同；3) 一个多方面的评估框架，用于评估LLM在工具理解、轨迹规划和任务完成等方面的表现。

关键创新：MCP-Bench的关键创新在于其真实性和复杂性。与以往的基准相比，MCP-Bench的任务更加贴近真实世界的场景，需要LLM智能体具备更强的规划、推理和跨领域协同能力。此外，MCP-Bench还提供了一个多方面的评估框架，可以更全面地评估LLM的工具使用能力。

关键设计：MCP-Bench的关键设计包括：1) MCP服务器的设计，确保每个服务器提供的工具能够协同工作，形成复杂的工作流；2) 任务的设计，确保任务的复杂性和真实性，能够充分测试LLM的工具使用能力；3) 评估框架的设计，确保能够全面评估LLM在工具理解、轨迹规划和任务完成等方面的表现。具体的参数设置、损失函数、网络结构等技术细节未知。

🖼️ 关键图片

📊 实验亮点

对20个先进LLM的实验表明，即使是最先进的模型在MCP-Bench中仍然面临挑战，这表明现有LLM在复杂工具使用方面仍有很大的改进空间。该基准测试揭示了LLM在工具理解、轨迹规划和跨领域协同方面的不足，为未来的研究提供了重要的方向。

🎯 应用场景

MCP-Bench可用于评估和改进LLM智能体在各种真实世界应用中的工具使用能力，例如智能助手、自动化工作流程、科学研究和金融分析等。通过使用MCP-Bench，可以开发出更智能、更可靠的LLM智能体，从而提高工作效率和决策质量，并推动人工智能技术在各行各业的应用。

📄 摘要（原文）

We introduce MCP-Bench, a benchmark for evaluating large language models (LLMs) on realistic, multi-step tasks that demand tool use, cross-tool coordination, precise parameter control, and planning/reasoning for solving tasks. Built on the Model Context Protocol (MCP), MCP-Bench connects LLMs to 28 representative live MCP servers spanning 250 tools across domains such as finance, traveling, scientific computing, and academic search. Unlike prior API-based benchmarks, each MCP server provides a set of complementary tools designed to work together, enabling the construction of authentic, multi-step tasks with rich input-output coupling. Tasks in MCP-Bench test agents' ability to retrieve relevant tools from fuzzy instructions without explicit tool names, plan multi-hop execution trajectories for complex objectives, ground responses in intermediate tool outputs, and orchestrate cross-domain workflows - capabilities not adequately evaluated by existing benchmarks that rely on explicit tool specifications, shallow few-step workflows, and isolated domain operations. We propose a multi-faceted evaluation framework covering tool-level schema understanding and usage, trajectory-level planning, and task completion. Experiments on 20 advanced LLMs reveal persistent challenges in MCP-Bench. Code and data: https://github.com/Accenture/mcp-bench.

MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理