Gandalf the Red: Adaptive Security for LLMs
作者: Niklas Pfister, Václav Volhejn, Manuel Knott, Santiago Arias, Julia Bazińska, Mykhailo Bichurin, Alan Commike, Janet Darling, Peter Dienes, Matthew Fiedler, David Haber, Matthias Kraft, Marco Lancini, Max Mathys, Damián Pascual-Ortiz, Jakub Podolak, Adrià Romero-López, Kyriacos Shiarlis, Andreas Signer, Zsolt Terek, Athanasios Theocharis, Daniel Timbrell, Samuel Trautwein, Samuel Watts, Yun-Han Wu, Mateo Rojas-Carulla
分类: cs.LG, cs.AI, cs.CL, cs.CR
发布日期: 2025-01-14 (更新: 2025-08-04)
备注: Niklas Pfister, Václav Volhejn and Manuel Knott contributed equally
💡 一句话要点
提出Gandalf平台与D-SEC模型,用于评估和提升LLM对抗提示攻击的自适应安全性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型安全 提示攻击 对抗防御 动态安全评估 众包红队
📋 核心要点
- 现有LLM防御评估忽略了对抗攻击的动态性和防御措施对正常用户的可用性影响。
- 论文提出D-SEC模型,区分攻击者和用户,建模多步交互,优化安全性和可用性。
- 构建Gandalf平台生成自适应攻击数据集,分析表明深度防御和自适应防御策略有效。
📝 摘要(中文)
当前对大型语言模型(LLM)应用中防御提示攻击的评估通常忽略了两个关键因素:对抗行为的动态性和限制性防御对合法用户造成的可用性损失。我们提出了D-SEC(动态安全效用威胁模型),它明确区分了攻击者和合法用户,对多步交互进行建模,并以可优化的形式表达安全效用。为了解决现有评估的不足,我们引入了Gandalf,一个众包的、游戏化的红队平台,旨在生成现实的、自适应的攻击。利用Gandalf,我们收集并发布了一个包含27.9万个提示攻击的数据集。通过补充良性用户数据,我们的分析揭示了安全性和可用性之间的相互作用,表明集成在LLM中的防御措施(例如,系统提示)即使在不阻止请求的情况下也会降低可用性。我们证明了限制性应用领域、深度防御和自适应防御是构建安全且有用的LLM应用的有效策略。
🔬 方法详解
问题定义:现有LLM防御评估方法的不足在于,它们通常没有充分考虑对抗攻击的动态演变特性,以及防御措施对合法用户的可用性造成的负面影响。静态的评估方法难以捕捉攻击者不断变化的策略,而过于严格的防御机制则可能误伤正常用户,降低用户体验。
核心思路:论文的核心思路是建立一个动态的安全评估框架,能够模拟真实世界中攻击者和防御者之间的对抗博弈。通过众包的方式收集大量的攻击样本,并利用这些样本来训练和评估LLM的防御能力。同时,论文还关注防御措施对用户体验的影响,力求在安全性和可用性之间找到平衡。
技术框架:论文提出了D-SEC(Dynamic Security Utility Threat Model)模型,该模型将攻击者和合法用户明确区分开来,并对多步交互过程进行建模。D-SEC模型的目标是优化安全性和可用性之间的平衡,通过调整防御策略来最大化整体效用。此外,论文还构建了一个名为Gandalf的众包红队平台,用于生成大量的对抗攻击样本。Gandalf平台采用游戏化的方式,鼓励用户尝试各种攻击策略,从而收集到更加多样化和具有挑战性的攻击样本。
关键创新:论文的关键创新在于提出了D-SEC模型和Gandalf平台,它们共同构成了一个动态的、自适应的LLM安全评估框架。D-SEC模型能够对攻击者和防御者之间的对抗博弈进行建模,并优化安全性和可用性之间的平衡。Gandalf平台则能够生成大量的对抗攻击样本,为LLM的防御训练和评估提供数据支持。与传统的静态评估方法相比,D-SEC和Gandalf能够更好地捕捉攻击者的动态演变特性,并评估防御措施对用户体验的影响。
关键设计:Gandalf平台的关键设计在于其游戏化的机制,通过奖励和排行榜等方式激励用户尝试各种攻击策略。D-SEC模型的关键设计在于其效用函数,该函数综合考虑了安全性和可用性两个方面,并允许用户根据实际需求调整二者之间的权重。此外,论文还探讨了多种防御策略,包括系统提示、输入过滤和自适应防御等,并评估了它们在不同场景下的性能表现。
🖼️ 关键图片
📊 实验亮点
论文通过Gandalf平台收集了27.9万个提示攻击的数据集,并分析了安全性和可用性之间的关系。实验结果表明,即使是看似无害的系统提示也可能降低LLM的可用性。此外,论文还证明了限制性应用领域、深度防御和自适应防御是构建安全且有用的LLM应用的有效策略。
🎯 应用场景
该研究成果可应用于各种基于LLM的应用场景,例如智能客服、内容生成、代码辅助等。通过D-SEC模型和Gandalf平台,开发者可以更好地评估和提升LLM的安全性,防止恶意攻击和滥用。同时,该研究也强调了可用性的重要性,有助于构建更加安全、可靠和用户友好的LLM应用。
📄 摘要(原文)
Current evaluations of defenses against prompt attacks in large language model (LLM) applications often overlook two critical factors: the dynamic nature of adversarial behavior and the usability penalties imposed on legitimate users by restrictive defenses. We propose D-SEC (Dynamic Security Utility Threat Model), which explicitly separates attackers from legitimate users, models multi-step interactions, and expresses the security-utility in an optimizable form. We further address the shortcomings in existing evaluations by introducing Gandalf, a crowd-sourced, gamified red-teaming platform designed to generate realistic, adaptive attack. Using Gandalf, we collect and release a dataset of 279k prompt attacks. Complemented by benign user data, our analysis reveals the interplay between security and utility, showing that defenses integrated in the LLM (e.g., system prompts) can degrade usability even without blocking requests. We demonstrate that restricted application domains, defense-in-depth, and adaptive defenses are effective strategies for building secure and useful LLM applications.