Adversarial Prompt Evaluation: Systematic Benchmarking of Guardrails Against Prompt Input Attacks on LLMs

作者: Giulio Zizzo, Giandomenico Cornacchia, Kieran Fraser, Muhammad Zaid Hameed, Ambrish Rawat, Beat Buesser, Mark Purcell, Pin-Yu Chen, Prasanna Sattigeri, Kush Varshney

分类: cs.CR, cs.LG

发布日期: 2025-02-21

备注: NeurIPS 2024, Safe Generative AI Workshop

🔗 代码/项目: GITHUB

💡 一句话要点

系统性评估针对LLM提示注入攻击的防御机制，揭示现有防御的局限性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 提示注入攻击 对抗性攻击 防御机制 基准测试 安全性评估 分布外泛化

📋 核心要点

大型语言模型面临提示注入攻击的威胁，现有防御方法泛化能力不足，难以应对新型攻击。
该研究通过系统性基准测试，评估多种防御机制在不同类型攻击下的性能表现，揭示其优缺点。
实验结果表明，现有防御方法在面对分布外攻击时表现不佳，简单的基线方法可能更具竞争力。

📝 摘要（中文）

随着大型语言模型（LLMs）日益融入日常应用，确保其稳健性和安全性变得至关重要。LLMs容易受到恶意提示（即jailbreaks）的操纵，从而产生不安全的行为。由于jailbreak风格的多样性不断增长，需要使用外部防御机制，即guardrails。虽然已经提出了许多jailbreak防御方法，但由于用于对齐它们的jailbreak样本范围狭窄，并非所有防御都能处理新的分布外攻击。此外，围绕防御的系统化不足导致了实际应用中的重大差距。本文对15种不同的防御机制进行了系统性基准测试，考虑了广泛的恶意和良性数据集。研究发现，防御性能会因jailbreak的风格而产生显著差异。此外，研究表明，基于当前可用于评估的数据集，与许多最先进的防御相比，简单的基线可以显示出具有竞争力的分布外性能。代码可在https://github.com/IBM/Adversarial-Prompt-Evaluation获取。

🔬 方法详解

问题定义：大型语言模型（LLMs）容易受到提示注入攻击（jailbreaks），导致其产生不安全或不期望的行为。现有的防御机制（guardrails）往往针对特定类型的攻击进行优化，缺乏对新型、分布外攻击的泛化能力。此外，缺乏系统性的评估方法来比较不同防御机制的性能，使得实际应用中难以选择合适的防御方案。

核心思路：该研究的核心思路是通过构建一个全面的基准测试框架，系统性地评估多种防御机制在不同类型的提示注入攻击下的性能表现。通过使用广泛的恶意和良性数据集，以及多种攻击风格，来模拟真实世界中可能遇到的各种攻击场景，从而更准确地评估防御机制的鲁棒性和泛化能力。

技术框架：该研究的技术框架主要包括以下几个部分：1）收集和整理包含多种攻击风格的提示注入攻击数据集；2）选择并实现15种不同的防御机制，包括基于规则的方法、基于机器学习的方法等；3）设计实验方案，使用不同的攻击数据集对各种防御机制进行评估；4）分析实验结果，比较不同防御机制的性能，并找出其优缺点。

关键创新：该研究的关键创新在于其系统性的评估方法。以往的研究往往只关注少数几种防御机制或攻击类型，缺乏对防御机制的全面评估。该研究通过构建一个包含多种攻击风格和防御机制的基准测试框架，为研究人员提供了一个更客观、更全面的评估平台。此外，该研究还发现，一些简单的基线方法在面对分布外攻击时，可能比一些复杂的防御机制更有效。

关键设计：该研究的关键设计包括：1）选择具有代表性的提示注入攻击数据集，覆盖多种攻击风格，如直接攻击、间接攻击、对抗性后缀等；2）选择具有代表性的防御机制，包括基于规则的方法（如输入过滤、输出审查）、基于机器学习的方法（如对抗训练、异常检测）等；3）使用多种评估指标，如攻击成功率、误报率等，来全面评估防御机制的性能；4）进行统计显著性检验，确保实验结果的可靠性。

🖼️ 关键图片

📊 实验亮点

该研究对15种防御机制进行了系统性评估，发现防御性能因jailbreak风格而异。令人惊讶的是，简单的基线方法在分布外攻击中表现出与最先进防御相当的竞争力。例如，某些基线方法在特定类型的攻击下，攻击成功率低于复杂的防御机制，表明现有防御方法的泛化能力有待提高。

🎯 应用场景

该研究成果可应用于评估和选择适合特定应用场景的LLM防御机制，提升LLM在实际应用中的安全性。例如，在金融、医疗等对安全性要求较高的领域，可以利用该研究的基准测试框架来评估不同防御机制的有效性，从而选择最合适的防御方案，降低LLM被恶意利用的风险。此外，该研究还可以促进新型防御机制的研发，推动LLM安全领域的发展。

📄 摘要（原文）

As large language models (LLMs) become integrated into everyday applications, ensuring their robustness and security is increasingly critical. In particular, LLMs can be manipulated into unsafe behaviour by prompts known as jailbreaks. The variety of jailbreak styles is growing, necessitating the use of external defences known as guardrails. While many jailbreak defences have been proposed, not all defences are able to handle new out-of-distribution attacks due to the narrow segment of jailbreaks used to align them. Moreover, the lack of systematisation around defences has created significant gaps in their practical application. In this work, we perform systematic benchmarking across 15 different defences, considering a broad swathe of malicious and benign datasets. We find that there is significant performance variation depending on the style of jailbreak a defence is subject to. Additionally, we show that based on current datasets available for evaluation, simple baselines can display competitive out-of-distribution performance compared to many state-of-the-art defences. Code is available at https://github.com/IBM/Adversarial-Prompt-Evaluation.

Adversarial Prompt Evaluation: Systematic Benchmarking of Guardrails Against Prompt Input Attacks on LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理