MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

作者: Xuanjun Zong, Zhiqi Shen, Lei Wang, Yunshi Lan, Chao Yang

分类: cs.CL, cs.AI

发布日期: 2025-12-17

备注: Our benchmark is available at https://github.com/xjzzzzzzzz/MCPSafety

💡 一句话要点

提出MCP-SafetyBench，用于评估大语言模型在真实MCP服务器环境中的安全性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型安全 模型上下文协议 安全基准测试 多服务器交互 攻击类型分类

📋 核心要点

现有安全基准测试无法充分评估LLM在真实世界MCP环境中的安全风险，因为它们通常关注孤立攻击或缺乏实际场景覆盖。
MCP-SafetyBench旨在通过构建在真实MCP服务器上的综合基准测试，模拟多轮交互和跨服务器协调，从而更真实地评估LLM的安全性。
实验结果表明，领先的LLM在MCP-SafetyBench上表现出显著的安全性能差异，并且随着任务复杂性和服务器交互的增加，漏洞会加剧。

📝 摘要（中文）

大型语言模型（LLMs）正演变为具备推理、规划和操作外部工具能力的智能体系统。模型上下文协议（MCP）是这一转变的关键推动因素，它为LLMs与异构工具和服务连接提供了一个标准化接口。然而，MCP的开放性和多服务器工作流程引入了新的安全风险，而现有的基准测试未能捕捉到这些风险，因为它们侧重于孤立的攻击或缺乏真实世界的覆盖。我们提出了MCP-SafetyBench，这是一个构建在真实MCP服务器上的综合基准测试，支持跨五个领域的真实多轮评估：浏览器自动化、金融分析、位置导航、存储库管理和网络搜索。它包含一个统一的MCP攻击类型分类，涵盖服务器、主机和用户端，并包括需要在不确定性下进行多步骤推理和跨服务器协调的任务。通过MCP-SafetyBench，我们系统地评估了领先的开源和闭源LLMs，揭示了安全性能方面的巨大差异，以及随着任务范围和服务器交互的增加而不断升级的漏洞。我们的结果强调了对更强防御的迫切需求，并将MCP-SafetyBench确立为诊断和缓解真实世界MCP部署中安全风险的基础。

🔬 方法详解

问题定义：现有的大语言模型安全评估基准，无法充分模拟真实世界中基于模型上下文协议（MCP）的多服务器交互场景。这些基准通常关注孤立的攻击，缺乏对跨服务器协调和多步骤推理安全风险的评估，导致LLM在实际部署中面临潜在的安全漏洞。

核心思路：构建一个基于真实MCP服务器的综合性安全评估基准，模拟真实世界的多服务器交互环境，并设计包含多步骤推理和跨服务器协调的任务，从而更全面地评估LLM在实际应用中的安全性。通过统一的攻击类型分类，系统性地评估LLM在服务器、主机和用户端面临的各种安全威胁。

技术框架：MCP-SafetyBench包含五个领域：浏览器自动化、金融分析、位置导航、存储库管理和网络搜索。每个领域都构建在真实的MCP服务器上，并设计了多轮交互的任务。基准测试包含一个统一的MCP攻击类型分类，涵盖服务器、主机和用户端。评估过程涉及对LLM进行多步骤推理和跨服务器协调的任务，并在不确定性下进行评估。

关键创新：MCP-SafetyBench的关键创新在于其真实性和全面性。它构建在真实的MCP服务器上，模拟了真实世界的多服务器交互环境。同时，它包含一个统一的攻击类型分类，涵盖了服务器、主机和用户端，从而更全面地评估LLM的安全风险。此外，它还设计了多步骤推理和跨服务器协调的任务，从而更真实地评估LLM在实际应用中的安全性。

关键设计：MCP-SafetyBench的关键设计包括：(1) 构建真实的MCP服务器环境，模拟真实世界的多服务器交互；(2) 设计多轮交互的任务，模拟LLM在实际应用中的交互过程；(3) 包含一个统一的攻击类型分类，涵盖服务器、主机和用户端；(4) 设计多步骤推理和跨服务器协调的任务，评估LLM在复杂场景下的安全性；(5) 评估指标包括成功率、攻击成功率等。

🖼️ 关键图片

📊 实验亮点

通过MCP-SafetyBench对领先的开源和闭源LLM进行了系统评估，结果表明，LLM在安全性能方面存在巨大差异。随着任务范围和服务器交互的增加，LLM的漏洞会加剧。例如，某些LLM在简单任务中表现良好，但在涉及跨服务器协调和多步骤推理的复杂任务中，安全性能显著下降。

🎯 应用场景

MCP-SafetyBench可用于评估和提高大语言模型在各种实际应用场景中的安全性，例如智能助手、自动化工具和金融分析系统。通过该基准测试，可以发现并修复LLM在多服务器交互环境中存在的安全漏洞，从而提高LLM在实际部署中的可靠性和安全性，降低潜在的安全风险。

📄 摘要（原文）

Large language models (LLMs) are evolving into agentic systems that reason, plan, and operate external tools. The Model Context Protocol (MCP) is a key enabler of this transition, offering a standardized interface for connecting LLMs with heterogeneous tools and services. Yet MCP's openness and multi-server workflows introduce new safety risks that existing benchmarks fail to capture, as they focus on isolated attacks or lack real-world coverage. We present MCP-SafetyBench, a comprehensive benchmark built on real MCP servers that supports realistic multi-turn evaluation across five domains: browser automation, financial analysis, location navigation, repository management, and web search. It incorporates a unified taxonomy of 20 MCP attack types spanning server, host, and user sides, and includes tasks requiring multi-step reasoning and cross-server coordination under uncertainty. Using MCP-SafetyBench, we systematically evaluate leading open- and closed-source LLMs, revealing large disparities in safety performance and escalating vulnerabilities as task horizons and server interactions grow. Our results highlight the urgent need for stronger defenses and establish MCP-SafetyBench as a foundation for diagnosing and mitigating safety risks in real-world MCP deployments.

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理