MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents

作者: Haonan Li, Tianjun Sun, Yongqing Wang, Qisheng Zhang

分类: cs.AI

发布日期: 2026-04-30

备注: 21 pages, 1 figure, 16 tables. Code: https://github.com/lihaonan0716/MCPHunt Data: https://huggingface.co/datasets/lihaonan0716/mcphunt-agent-traces

💡 一句话要点

MCPHunt：多服务器MCP代理中跨边界数据传播的评估框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多服务器MCP代理 跨边界数据传播 信息流控制 安全评估 污点跟踪

📋 核心要点

多服务器MCP代理存在跨边界凭据传播风险，现有方法难以有效评估和控制这种非对抗性的信息泄露。
MCPHunt通过金丝雀污点跟踪、环境控制覆盖设计和CRS分层，实现了对跨边界凭据传播的精确检测和分析。
实验表明，违反策略的传播率较高，且与数据流路径和模型指令遵循能力相关，提示缓解策略可有效降低传播。

📝 摘要（中文）

多服务器MCP代理带来信息流控制问题：忠实的工具组合可能将原本良性的读/写权限转变为跨边界的凭据传播——这是工作流拓扑的结构性副作用，不一定是恶意的模型行为。我们提出了MCPHunt，据我们所知，这是第一个受控的基准测试，用于隔离多服务器MCP信任边界之间的非对抗性、逐字凭据传播。它包含三个方法论贡献：（1）基于金丝雀的污点跟踪，将传播检测简化为客观的字符串匹配；（2）环境控制的覆盖设计，包含风险、良性和硬负条件，验证管道的健全性并控制凭据格式的混淆；（3）CRS分层，区分任务要求的传播（逐字传输指令的忠实执行）和违反策略的传播（尽管可以选择编辑，但仍包含凭据）。在来自5个模型、跨越147个任务和9个机制系列的3615个主要基准测试轨迹中，违反策略的传播率在所有模型中达到11.5-41.3%。这种传播是路径特定的（25倍的跨机制范围），并且集中在浏览器介导的数据流中；硬负控制提供的证据表明，生产格式的凭据不是必需的——提示引导的跨边界数据流就足够了。一项跨3个模型的提示缓解研究将违反策略的传播减少了高达97%，同时保留了80.5%的效用，但有效性随指令遵循能力而变化——表明仅提示级别的防御可能不足以解决问题。代码、轨迹和标记管道已在MIT和CC BY 4.0下发布。

🔬 方法详解

问题定义：多服务器MCP代理在执行任务时，可能由于工具组合和工作流拓扑的结构性原因，导致凭据在不同服务器之间非预期地传播，即使单个操作是良性的。现有方法难以区分任务必需的传播和违反策略的传播，也缺乏有效的评估框架来量化这种风险。

核心思路：MCPHunt的核心思路是通过受控的实验环境和精确的污点跟踪技术，隔离并量化多服务器MCP代理中的跨边界凭据传播。通过引入金丝雀值（canary），将凭据传播的检测转化为简单的字符串匹配问题，从而提高检测的准确性和效率。

技术框架：MCPHunt包含三个主要组成部分：(1) 基于金丝雀的污点跟踪：在输入数据中嵌入唯一的金丝雀字符串，并在输出数据中搜索这些字符串，以确定凭据是否被传播。(2) 环境控制的覆盖设计：设计了包含风险、良性和硬负三种条件的实验环境，以验证管道的健全性并控制凭据格式的影响。(3) CRS分层：将传播分为任务要求的传播（faithful execution of verbatim-transfer instructions）和违反策略的传播（credentials included despite the option to redact），从而区分不同类型的传播。

关键创新：MCPHunt的关键创新在于其系统性的评估框架，能够量化多服务器MCP代理中非对抗性的跨边界凭据传播风险。通过金丝雀污点跟踪和环境控制的覆盖设计，实现了对传播路径和原因的精确定位。CRS分层则有助于区分不同类型的传播，从而更好地理解和控制信息泄露。

关键设计：MCPHunt的关键设计包括：金丝雀字符串的生成和嵌入策略，确保其唯一性和可追踪性；实验环境的配置，包括风险、良性和硬负三种条件，以模拟不同的实际场景；CRS分层的标准，用于区分任务要求的传播和违反策略的传播；以及提示缓解策略的设计，用于评估不同防御措施的有效性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，违反策略的传播率在不同模型中达到11.5-41.3%，且传播路径具有高度的特异性。硬负控制实验表明，即使不使用生产格式的凭据，提示引导的跨边界数据流也足以导致凭据传播。提示缓解研究表明，通过优化提示可以有效降低违反策略的传播，但效果受到模型指令遵循能力的影响。

🎯 应用场景

MCPHunt的研究成果可应用于评估和改进多服务器MCP代理的安全性，例如在云原生应用、微服务架构和联邦学习等场景中。通过使用MCPHunt，可以识别潜在的凭据传播风险，并采取相应的防御措施，例如访问控制、数据脱敏和提示工程，从而提高系统的安全性和可靠性。

📄 摘要（原文）

Multi-server MCP agents create an information-flow control problem: faithful tool composition can turn individually benign read/write permissions into cross-boundary credential propagation -- a structural side effect of workflow topology, not necessarily malicious model behavior. We present MCPHunt, to our knowledge the first controlled benchmark that isolates non-adversarial, verbatim credential propagation across multi-server MCP trust boundaries, with three methodological contributions: (1) canary-based taint tracking that reduces propagation detection to objective string matching; (2) an environment-controlled coverage design with risky, benign, and hard-negative conditions that validates pipeline soundness and controls for credential-format confounds; (3) CRS stratification that disentangles task-mandated propagation (faithful execution of verbatim-transfer instructions) from policy-violating propagation (credentials included despite the option to redact). Across 3,615 main-benchmark traces from 5 models spanning 147 tasks and 9 mechanism families, policy-violating propagation rates reach 11.5--41.3% across all models. This propagation is pathway-specific (25x cross-mechanism range) and concentrated in browser-mediated data flows; hard-negative controls provide evidence that production-format credentials are not necessary -- prompt-directed cross-boundary data flow is sufficient. A prompt-mitigation study across 3 models reduces policy-violating propagation by up to 97% while preserving 80.5% utility, but effectiveness varies with instruction-following capability -- suggesting that prompt-level defenses alone may not suffice. Code, traces, and labeling pipeline are released under MIT and CC BY 4.0.

MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理