MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents
作者: Haonan Li, Tianjun Sun, Yongqing Wang, Qisheng Zhang
分类: cs.AI
发布日期: 2026-04-30
备注: 21 pages, 1 figure, 16 tables. Code: https://github.com/lihaonan0716/MCPHunt Data: https://huggingface.co/datasets/lihaonan0716/mcphunt-agent-traces
💡 一句话要点
MCPHunt:多服务器MCP代理中跨边界数据传播的评估框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多服务器MCP代理 跨边界数据传播 信息流控制 安全评估 污点跟踪
📋 核心要点
- 多服务器MCP代理存在跨边界凭据传播风险,现有方法难以有效评估和控制这种非对抗性的信息泄露。
- MCPHunt通过金丝雀污点跟踪、环境控制覆盖设计和CRS分层,实现了对跨边界凭据传播的精确检测和分析。
- 实验表明,违反策略的传播率较高,且与数据流路径和模型指令遵循能力相关,提示缓解策略可有效降低传播。
📝 摘要(中文)
多服务器MCP代理带来信息流控制问题:忠实的工具组合可能将原本良性的读/写权限转变为跨边界的凭据传播——这是工作流拓扑的结构性副作用,不一定是恶意的模型行为。我们提出了MCPHunt,据我们所知,这是第一个受控的基准测试,用于隔离多服务器MCP信任边界之间的非对抗性、逐字凭据传播。它包含三个方法论贡献:(1)基于金丝雀的污点跟踪,将传播检测简化为客观的字符串匹配;(2)环境控制的覆盖设计,包含风险、良性和硬负条件,验证管道的健全性并控制凭据格式的混淆;(3)CRS分层,区分任务要求的传播(逐字传输指令的忠实执行)和违反策略的传播(尽管可以选择编辑,但仍包含凭据)。在来自5个模型、跨越147个任务和9个机制系列的3615个主要基准测试轨迹中,违反策略的传播率在所有模型中达到11.5-41.3%。这种传播是路径特定的(25倍的跨机制范围),并且集中在浏览器介导的数据流中;硬负控制提供的证据表明,生产格式的凭据不是必需的——提示引导的跨边界数据流就足够了。一项跨3个模型的提示缓解研究将违反策略的传播减少了高达97%,同时保留了80.5%的效用,但有效性随指令遵循能力而变化——表明仅提示级别的防御可能不足以解决问题。代码、轨迹和标记管道已在MIT和CC BY 4.0下发布。
🔬 方法详解
问题定义:多服务器MCP代理在执行任务时,可能由于工具组合和工作流拓扑的结构性原因,导致凭据在不同服务器之间非预期地传播,即使单个操作是良性的。现有方法难以区分任务必需的传播和违反策略的传播,也缺乏有效的评估框架来量化这种风险。
核心思路:MCPHunt的核心思路是通过受控的实验环境和精确的污点跟踪技术,隔离并量化多服务器MCP代理中的跨边界凭据传播。通过引入金丝雀值(canary),将凭据传播的检测转化为简单的字符串匹配问题,从而提高检测的准确性和效率。
技术框架:MCPHunt包含三个主要组成部分:(1) 基于金丝雀的污点跟踪:在输入数据中嵌入唯一的金丝雀字符串,并在输出数据中搜索这些字符串,以确定凭据是否被传播。(2) 环境控制的覆盖设计:设计了包含风险、良性和硬负三种条件的实验环境,以验证管道的健全性并控制凭据格式的影响。(3) CRS分层:将传播分为任务要求的传播(faithful execution of verbatim-transfer instructions)和违反策略的传播(credentials included despite the option to redact),从而区分不同类型的传播。
关键创新:MCPHunt的关键创新在于其系统性的评估框架,能够量化多服务器MCP代理中非对抗性的跨边界凭据传播风险。通过金丝雀污点跟踪和环境控制的覆盖设计,实现了对传播路径和原因的精确定位。CRS分层则有助于区分不同类型的传播,从而更好地理解和控制信息泄露。
关键设计:MCPHunt的关键设计包括:金丝雀字符串的生成和嵌入策略,确保其唯一性和可追踪性;实验环境的配置,包括风险、良性和硬负三种条件,以模拟不同的实际场景;CRS分层的标准,用于区分任务要求的传播和违反策略的传播;以及提示缓解策略的设计,用于评估不同防御措施的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,违反策略的传播率在不同模型中达到11.5-41.3%,且传播路径具有高度的特异性。硬负控制实验表明,即使不使用生产格式的凭据,提示引导的跨边界数据流也足以导致凭据传播。提示缓解研究表明,通过优化提示可以有效降低违反策略的传播,但效果受到模型指令遵循能力的影响。
🎯 应用场景
MCPHunt的研究成果可应用于评估和改进多服务器MCP代理的安全性,例如在云原生应用、微服务架构和联邦学习等场景中。通过使用MCPHunt,可以识别潜在的凭据传播风险,并采取相应的防御措施,例如访问控制、数据脱敏和提示工程,从而提高系统的安全性和可靠性。
📄 摘要(原文)
Multi-server MCP agents create an information-flow control problem: faithful tool composition can turn individually benign read/write permissions into cross-boundary credential propagation -- a structural side effect of workflow topology, not necessarily malicious model behavior. We present MCPHunt, to our knowledge the first controlled benchmark that isolates non-adversarial, verbatim credential propagation across multi-server MCP trust boundaries, with three methodological contributions: (1) canary-based taint tracking that reduces propagation detection to objective string matching; (2) an environment-controlled coverage design with risky, benign, and hard-negative conditions that validates pipeline soundness and controls for credential-format confounds; (3) CRS stratification that disentangles task-mandated propagation (faithful execution of verbatim-transfer instructions) from policy-violating propagation (credentials included despite the option to redact). Across 3,615 main-benchmark traces from 5 models spanning 147 tasks and 9 mechanism families, policy-violating propagation rates reach 11.5--41.3% across all models. This propagation is pathway-specific (25x cross-mechanism range) and concentrated in browser-mediated data flows; hard-negative controls provide evidence that production-format credentials are not necessary -- prompt-directed cross-boundary data flow is sufficient. A prompt-mitigation study across 3 models reduces policy-violating propagation by up to 97% while preserving 80.5% utility, but effectiveness varies with instruction-following capability -- suggesting that prompt-level defenses alone may not suffice. Code, traces, and labeling pipeline are released under MIT and CC BY 4.0.