Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs

📄 arXiv: 2504.19019v1 📥 PDF

作者: Mohammad Akbar-Tajari, Mohammad Taher Pilehvar, Mohammad Mahmoody

分类: cs.CL, cs.AI, cs.CR

发布日期: 2025-04-26

备注: 19 pages, 1 figure, 6 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出GoAT,利用攻击图提升LLM黑盒越狱攻击效果与可解释性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对抗攻击 越狱攻击 黑盒攻击 思维图 模型安全 鲁棒性评估

📋 核心要点

  1. 大型语言模型容易受到对抗性攻击,绕过安全机制,因此需要有效方法来识别和缓解这些漏洞。
  2. GoAT利用思维图框架,通过迭代地组合和改进攻击路径,生成更有效的对抗性提示,实现黑盒越狱攻击。
  3. 实验表明,GoAT在越狱成功率上优于现有方法,尤其是在针对鲁棒模型时,且生成提示更具可读性。

📝 摘要(中文)

大型语言模型(LLM)与社会标准的对齐是一项日益重要的挑战,因为这些模型仍然容易受到对抗性越狱攻击,从而绕过其安全机制。识别这些漏洞对于增强LLM抵御此类攻击的鲁棒性至关重要。我们提出了一种名为攻击图(GoAT)的方法,该方法使用思维图框架[Besta et al., 2024]生成对抗性提示,以测试LLM对齐的鲁棒性。与最先进的攻击相比,GoAT擅长以更少的查询次数生成高效的越狱提示,针对像Llama这样的鲁棒模型,越狱成功率提高了五倍。值得注意的是,GoAT创建了高质量、人类可读的提示,而无需访问目标模型的参数,使其成为一种黑盒攻击。与受限于基于树的推理方法不同,GoAT的推理基于更复杂的图结构。通过使同步攻击路径了解彼此的进展,这种动态框架可以更深入地集成和改进推理路径,从而显著增强LLM中对抗性漏洞的协同探索。在技术层面上,GoAT从图结构开始,并通过组合和改进思想来迭代地改进它,从而实现不同思想路径之间的协同作用。我们的实现代码可在https://github.com/GoAT-pydev/Graph_of_Attacks找到。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的对齐问题,即如何有效地发现并利用LLM的安全漏洞,使其产生有害或不期望的输出。现有方法,如基于树结构的搜索,在探索复杂的攻击路径时存在局限性,且效率较低。

核心思路:论文的核心思路是利用图结构来表示和探索不同的攻击路径。通过允许攻击路径之间的相互感知和协同,GoAT能够更有效地发现LLM的漏洞。这种图结构允许更灵活和深入的推理,克服了传统树结构的限制。

技术框架:GoAT的技术框架包括以下几个主要阶段:1) 初始化一个图结构,其中节点代表不同的“思想”(攻击步骤)。2) 迭代地改进图结构,通过组合和改进节点中的思想,生成新的攻击路径。3) 利用LLM评估每个攻击路径的有效性。4) 根据评估结果,动态调整图结构,优先探索更有希望的攻击路径。

关键创新:GoAT的关键创新在于使用图结构来表示攻击路径,并允许这些路径之间进行协同。与传统的树搜索方法相比,图结构能够更好地捕捉攻击路径之间的复杂关系,从而更有效地发现LLM的漏洞。此外,GoAT是一种黑盒攻击方法,不需要访问目标模型的参数。

关键设计:GoAT的关键设计包括:1) 图结构的表示方式,如何定义节点和边的含义。2) 思想组合和改进的策略,如何利用LLM生成新的、更有效的攻击步骤。3) 评估攻击路径有效性的指标,如何量化LLM的输出是否符合越狱目标。4) 图结构的动态调整策略,如何根据评估结果优化攻击路径的探索。

🖼️ 关键图片

fig_0

📊 实验亮点

GoAT在越狱攻击成功率上显著优于现有方法,针对Llama等鲁棒模型,成功率提升高达五倍。此外,GoAT生成的对抗性提示更具可读性,便于人工分析和理解,有助于深入了解LLM的漏洞。

🎯 应用场景

GoAT可用于评估和提高大型语言模型的安全性,帮助开发者发现潜在的漏洞并改进模型的对齐策略。此外,该方法还可以用于构建更鲁棒的LLM防御机制,防止恶意用户利用对抗性提示进行攻击。该研究对于构建安全可靠的人工智能系统具有重要意义。

📄 摘要(原文)

The challenge of ensuring Large Language Models (LLMs) align with societal standards is of increasing interest, as these models are still prone to adversarial jailbreaks that bypass their safety mechanisms. Identifying these vulnerabilities is crucial for enhancing the robustness of LLMs against such exploits. We propose Graph of ATtacks (GoAT), a method for generating adversarial prompts to test the robustness of LLM alignment using the Graph of Thoughts framework [Besta et al., 2024]. GoAT excels at generating highly effective jailbreak prompts with fewer queries to the victim model than state-of-the-art attacks, achieving up to five times better jailbreak success rate against robust models like Llama. Notably, GoAT creates high-quality, human-readable prompts without requiring access to the targeted model's parameters, making it a black-box attack. Unlike approaches constrained by tree-based reasoning, GoAT's reasoning is based on a more intricate graph structure. By making simultaneous attack paths aware of each other's progress, this dynamic framework allows a deeper integration and refinement of reasoning paths, significantly enhancing the collaborative exploration of adversarial vulnerabilities in LLMs. At a technical level, GoAT starts with a graph structure and iteratively refines it by combining and improving thoughts, enabling synergy between different thought paths. The code for our implementation can be found at: https://github.com/GoAT-pydev/Graph_of_Attacks.