MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

📄 arXiv: 2512.15163v1 📥 PDF

作者: Xuanjun Zong, Zhiqi Shen, Lei Wang, Yunshi Lan, Chao Yang

分类: cs.CL, cs.AI

发布日期: 2025-12-17

备注: Our benchmark is available at https://github.com/xjzzzzzzzz/MCPSafety


💡 一句话要点

提出MCP-SafetyBench,用于评估大语言模型在真实MCP服务器环境中的安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型安全 模型上下文协议 安全基准测试 多服务器交互 攻击类型分类

📋 核心要点

  1. 现有安全基准测试无法充分评估LLM在真实世界MCP环境中的安全风险,因为它们通常关注孤立攻击或缺乏实际场景覆盖。
  2. MCP-SafetyBench旨在通过构建在真实MCP服务器上的综合基准测试,模拟多轮交互和跨服务器协调,从而更真实地评估LLM的安全性。
  3. 实验结果表明,领先的LLM在MCP-SafetyBench上表现出显著的安全性能差异,并且随着任务复杂性和服务器交互的增加,漏洞会加剧。

📝 摘要(中文)

大型语言模型(LLMs)正演变为具备推理、规划和操作外部工具能力的智能体系统。模型上下文协议(MCP)是这一转变的关键推动因素,它为LLMs与异构工具和服务连接提供了一个标准化接口。然而,MCP的开放性和多服务器工作流程引入了新的安全风险,而现有的基准测试未能捕捉到这些风险,因为它们侧重于孤立的攻击或缺乏真实世界的覆盖。我们提出了MCP-SafetyBench,这是一个构建在真实MCP服务器上的综合基准测试,支持跨五个领域的真实多轮评估:浏览器自动化、金融分析、位置导航、存储库管理和网络搜索。它包含一个统一的MCP攻击类型分类,涵盖服务器、主机和用户端,并包括需要在不确定性下进行多步骤推理和跨服务器协调的任务。通过MCP-SafetyBench,我们系统地评估了领先的开源和闭源LLMs,揭示了安全性能方面的巨大差异,以及随着任务范围和服务器交互的增加而不断升级的漏洞。我们的结果强调了对更强防御的迫切需求,并将MCP-SafetyBench确立为诊断和缓解真实世界MCP部署中安全风险的基础。

🔬 方法详解

问题定义:现有的大语言模型安全评估基准,无法充分模拟真实世界中基于模型上下文协议(MCP)的多服务器交互场景。这些基准通常关注孤立的攻击,缺乏对跨服务器协调和多步骤推理安全风险的评估,导致LLM在实际部署中面临潜在的安全漏洞。

核心思路:构建一个基于真实MCP服务器的综合性安全评估基准,模拟真实世界的多服务器交互环境,并设计包含多步骤推理和跨服务器协调的任务,从而更全面地评估LLM在实际应用中的安全性。通过统一的攻击类型分类,系统性地评估LLM在服务器、主机和用户端面临的各种安全威胁。

技术框架:MCP-SafetyBench包含五个领域:浏览器自动化、金融分析、位置导航、存储库管理和网络搜索。每个领域都构建在真实的MCP服务器上,并设计了多轮交互的任务。基准测试包含一个统一的MCP攻击类型分类,涵盖服务器、主机和用户端。评估过程涉及对LLM进行多步骤推理和跨服务器协调的任务,并在不确定性下进行评估。

关键创新:MCP-SafetyBench的关键创新在于其真实性和全面性。它构建在真实的MCP服务器上,模拟了真实世界的多服务器交互环境。同时,它包含一个统一的攻击类型分类,涵盖了服务器、主机和用户端,从而更全面地评估LLM的安全风险。此外,它还设计了多步骤推理和跨服务器协调的任务,从而更真实地评估LLM在实际应用中的安全性。

关键设计:MCP-SafetyBench的关键设计包括:(1) 构建真实的MCP服务器环境,模拟真实世界的多服务器交互;(2) 设计多轮交互的任务,模拟LLM在实际应用中的交互过程;(3) 包含一个统一的攻击类型分类,涵盖服务器、主机和用户端;(4) 设计多步骤推理和跨服务器协调的任务,评估LLM在复杂场景下的安全性;(5) 评估指标包括成功率、攻击成功率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过MCP-SafetyBench对领先的开源和闭源LLM进行了系统评估,结果表明,LLM在安全性能方面存在巨大差异。随着任务范围和服务器交互的增加,LLM的漏洞会加剧。例如,某些LLM在简单任务中表现良好,但在涉及跨服务器协调和多步骤推理的复杂任务中,安全性能显著下降。

🎯 应用场景

MCP-SafetyBench可用于评估和提高大语言模型在各种实际应用场景中的安全性,例如智能助手、自动化工具和金融分析系统。通过该基准测试,可以发现并修复LLM在多服务器交互环境中存在的安全漏洞,从而提高LLM在实际部署中的可靠性和安全性,降低潜在的安全风险。

📄 摘要(原文)

Large language models (LLMs) are evolving into agentic systems that reason, plan, and operate external tools. The Model Context Protocol (MCP) is a key enabler of this transition, offering a standardized interface for connecting LLMs with heterogeneous tools and services. Yet MCP's openness and multi-server workflows introduce new safety risks that existing benchmarks fail to capture, as they focus on isolated attacks or lack real-world coverage. We present MCP-SafetyBench, a comprehensive benchmark built on real MCP servers that supports realistic multi-turn evaluation across five domains: browser automation, financial analysis, location navigation, repository management, and web search. It incorporates a unified taxonomy of 20 MCP attack types spanning server, host, and user sides, and includes tasks requiring multi-step reasoning and cross-server coordination under uncertainty. Using MCP-SafetyBench, we systematically evaluate leading open- and closed-source LLMs, revealing large disparities in safety performance and escalating vulnerabilities as task horizons and server interactions grow. Our results highlight the urgent need for stronger defenses and establish MCP-SafetyBench as a foundation for diagnosing and mitigating safety risks in real-world MCP deployments.