MCP-Guard: A Multi-Stage Defense-in-Depth Framework for Securing Model Context Protocol in Agentic AI
作者: Wenpeng Xing, Zhonghao Qi, Yupeng Qin, Yilin Li, Caini Chang, Jiahui Yu, Changting Lin, Zhenzhen Xie, Meng Han
分类: cs.CR, cs.AI
发布日期: 2025-08-14 (更新: 2026-01-08)
💡 一句话要点
MCP-Guard:针对Agentic AI中模型上下文协议的多阶段防御框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic AI 大型语言模型 模型安全 提示注入 对抗性攻击 模型上下文协议 多阶段防御 安全基准
📋 核心要点
- 现有LLM与工具集成面临提示注入、数据泄露等安全威胁,传统防御方法难以有效应对。
- MCP-GUARD采用多阶段防御架构,结合静态扫描、深度学习检测和LLM仲裁,提升防御效果。
- MCP-ATTACKBENCH基准包含大量真实攻击样本,为评估和提升LLM-工具安全防御能力提供支持。
📝 摘要(中文)
大型语言模型(LLMs)虽然性能卓越,但仍易受越狱攻击。通过模型上下文协议(MCP)等协议将LLMs与外部工具集成,会引入严重的安全漏洞,包括提示注入、数据泄露和其他威胁。为了应对这些挑战,我们提出了MCP-GUARD,一个为LLM-工具交互设计的强大、分层防御架构。MCP-GUARD采用三阶段检测流程,兼顾效率和准确性:从轻量级静态扫描到深度神经网络检测器,再到我们微调的基于E5的模型,该模型在识别对抗性提示方面实现了96.01%的准确率。最后,LLM仲裁器综合这些信号以做出最终决策。为了进行严格的训练和评估,我们引入了MCP-ATTACKBENCH,一个包含70,448个由GPT-4增强的样本的综合基准。该基准模拟了各种绕过MCP范式中传统防御的真实攻击向量,从而为未来研究LLM-工具生态系统的安全性奠定了坚实的基础。
🔬 方法详解
问题定义:论文旨在解决Agentic AI中,LLM通过模型上下文协议(MCP)与外部工具交互时面临的安全问题,例如提示注入和数据泄露。现有防御方法无法有效识别和阻止针对MCP的复杂攻击,存在检测精度低、容易被绕过等痛点。
核心思路:论文的核心思路是构建一个多阶段、深度防御的框架,通过不同阶段的检测器协同工作,逐步过滤恶意请求。该框架的设计目标是在保证检测准确率的同时,兼顾效率,避免过度增加系统开销。
技术框架:MCP-GUARD框架包含三个主要阶段:1) 静态扫描:使用轻量级规则快速检测明显的恶意模式。2) 深度神经网络检测器:利用深度学习模型检测语义层面的攻击,例如对抗性提示。3) E5模型微调:使用微调后的E5模型,进一步提高对抗性提示的识别准确率。最后,LLM仲裁器综合三个阶段的检测结果,做出最终的决策,判断是否允许请求通过。
关键创新:该论文的关键创新在于多阶段防御架构的设计,以及针对MCP场景的对抗性攻击检测。通过结合静态扫描、深度学习和LLM仲裁,实现了更全面、更准确的防御。此外,MCP-ATTACKBENCH基准的提出,为评估和提升LLM-工具安全防御能力提供了重要资源。
关键设计:E5模型是基于Transformer的预训练模型,通过在MCP-ATTACKBENCH数据集上进行微调,使其能够更好地识别对抗性提示。微调过程中,使用了交叉熵损失函数,并调整了学习率等超参数以获得最佳性能。LLM仲裁器使用简单的加权平均方法,综合三个阶段的检测结果,并设置阈值来决定是否阻止请求。
🖼️ 关键图片
📊 实验亮点
MCP-GUARD框架在MCP-ATTACKBENCH基准测试中表现出色,微调后的E5模型在识别对抗性提示方面达到了96.01%的准确率。实验结果表明,MCP-GUARD能够有效防御各种针对MCP的攻击,显著优于传统的防御方法。MCP-ATTACKBENCH基准的发布,为后续研究提供了标准化的评估平台。
🎯 应用场景
该研究成果可应用于各种Agentic AI系统,特别是那些需要与外部工具交互的LLM应用。例如,智能客服、自动化办公、智能家居等领域,可以利用MCP-GUARD来保护LLM免受恶意攻击,确保系统的安全性和可靠性。该研究为构建更安全的LLM生态系统奠定了基础。
📄 摘要(原文)
While Large Language Models (LLMs) have achieved remarkable performance, they remain vulnerable to jailbreak. The integration of Large Language Models (LLMs) with external tools via protocols such as the Model Context Protocol (MCP) introduces critical security vulnerabilities, including prompt injection, data exfiltration, and other threats. To counter these challenges, we propose MCP-GUARD, a robust, layered defense architecture designed for LLM-tool interactions. MCP-GUARD employs a three-stage detection pipeline that balances efficiency with accuracy: it progresses from lightweight static scanning for overt threats and a deep neural detector for semantic attacks, to our fine-tuned E5-based model which achieves 96.01\% accuracy in identifying adversarial prompts. Finally, an LLM arbitrator synthesizes these signals to deliver the final decision. To enable rigorous training and evaluation, we introduce MCP-ATTACKBENCH, a comprehensive benchmark comprising 70,448 samples augmented by GPT-4. This benchmark simulates diverse real-world attack vectors that circumvent conventional defenses in the MCP paradigm, thereby laying a solid foundation for future research on securing LLM-tool ecosystems.