Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs
作者: David Gros, Adam Gleave
分类: cs.CL
发布日期: 2026-05-28
💡 一句话要点
评估使用模拟工具调用隔离不可信Prompt输入以提升大语言模型安全性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 Prompt注入攻击 安全性评估 工具调用 红队测试
📋 核心要点
- 大语言模型处理不可信输入时,易受恶意prompt注入攻击,现有方法缺乏有效隔离机制。
- 论文提出将不可信输入包装在模拟工具调用中,期望利用LLM的指令层级来隔离潜在风险。
- 实验结果表明,工具包装方法并未普遍提高模型鲁棒性,甚至在某些情况下适得其反。
📝 摘要(中文)
大型语言模型经常需要处理不可信的输入,例如评估其他模型的答案或执行垃圾邮件和有害内容分类等任务,同时面临对抗性压力。这些输入通常以字符串格式直接嵌入到提示模板中,使得系统容易受到操纵。OpenAI等主要提供商的当前LLM规范根据指令层级区分可信度,从系统消息(最可信)到工具结果(最不可信)。一种可能的自然缓解方法是将不可信内容包装在模拟工具调用中作为隔离。我们通过在七个模型和三个LLM-as-a-Judge任务上进行自动红队搜索静态攻击字符串来探索这个假设。与我们的假设相反,工具包装并没有广泛提高鲁棒性。在二元评估任务(GSM8K评分)中,它通常会增加攻击成功率,这显然是指令层级的倒置。在标量和成对任务中,效果较小且依赖于模型,没有经过测试的模型得到可靠的帮助,并且有几个模型显示出倒置。我们建议在已部署的系统中评估此限制,并从长远来看,寻求更强的指令层级训练或新的不可信输入原语。
🔬 方法详解
问题定义:论文旨在解决大语言模型在处理不可信prompt输入时,容易受到prompt注入攻击的问题。现有的prompt处理方法通常直接将字符串格式的输入嵌入到prompt模板中,缺乏有效的隔离机制,使得模型容易被恶意prompt操纵,导致输出不安全或不符合预期。
核心思路:论文的核心思路是利用大语言模型(LLM)的指令层级概念,将不可信的输入包装在模拟的工具调用中。根据LLM提供商(如OpenAI)的规范,工具结果通常被认为是可信度最低的输入来源。因此,通过将不可信输入伪装成工具调用的结果,期望LLM能够降低对这些输入的信任度,从而减轻prompt注入攻击的影响。
技术框架:论文采用自动红队搜索方法,针对七个不同的LLM模型和三个不同的LLM-as-a-Judge任务,生成并评估静态攻击字符串。这些任务包括二元评估(GSM8K评分)、标量评估和成对评估。对于每个任务和模型,研究人员比较了在不使用工具包装和使用工具包装的情况下,攻击的成功率。
关键创新:论文的关键创新在于对“工具包装”这种缓解prompt注入攻击方法的有效性进行了实证评估。与之前的研究不同,该论文并没有假设工具包装一定有效,而是通过大量的实验来验证这一假设。实验结果表明,工具包装并非总是有效,甚至在某些情况下会适得其反,这挑战了LLM指令层级的预期行为。
关键设计:论文的关键设计包括:1) 使用自动红队搜索生成攻击字符串,以确保攻击的多样性和有效性;2) 选择具有代表性的LLM模型和LLM-as-a-Judge任务,以评估工具包装的泛化能力;3) 采用严格的评估指标,如攻击成功率,来量化工具包装的效果;4) 详细分析实验结果,探讨工具包装失效的原因。
🖼️ 关键图片
📊 实验亮点
实验结果表明,工具包装方法并未普遍提高LLM的鲁棒性。在二元评估任务(GSM8K评分)中,工具包装通常会增加攻击成功率,这与预期的指令层级行为相反。在标量和成对任务中,工具包装的效果较小且依赖于模型,没有模型表现出可靠的提升,部分模型甚至出现性能下降。
🎯 应用场景
该研究成果对提升大语言模型在实际应用中的安全性具有重要意义。尤其是在需要处理用户生成内容、评估其他模型输出或执行安全敏感任务的场景下,该研究提醒开发者需要谨慎评估并验证各种缓解prompt注入攻击的方法,避免盲目信任工具包装等技术。
📄 摘要(原文)
Large language models must frequently process untrusted inputs, such as judging an answer from another model or running tasks like spam and harm classifiers while under adversarial pressure. These inputs are often string-formatted directly into a prompt template, leaving systems fragile to manipulation. Current LLM specs from major providers like OpenAI distinguish trustworthiness along an Instruction Hierarchy, from System messages (most trusted) to Tool Results (least trusted). A possible natural mitigation is to wrap untrusted content in a mock tool call as a quarantine. We explore this hypothesis with an automated redteaming search over static attack strings across seven models and three LLM-as-a-Judge tasks. Counter to our hypothesis, tool-wrapping does not broadly improve robustness. On a binary evaluation task (GSM8K grading) it typically increases attack success rates, an apparent inversion of the instruction hierarchy. On scalar and pairwise tasks the effect is smaller and model-dependent, with no tested model reliably helped, and several showing inversion. We recommend evaluating this limitation in deployed systems, and longer-term, pursuing stronger Instruction Hierarchy training or new untrusted-input primitives.