StructuralSleight: Automated Jailbreak Attacks on Large Language Models Utilizing Uncommon Text-Organization Structures
作者: Bangxin Li, Hengrui Xing, Cong Tian, Chao Huang, Jin Qian, Huangqing Xiao, Linfeng Feng
分类: cs.CL, cs.CR
发布日期: 2024-06-13 (更新: 2025-02-18)
备注: 15 pages, 7 figures
💡 一句话要点
StructuralSleight:利用罕见文本组织结构自动攻击大型语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 越狱攻击 文本结构 安全漏洞 对抗性攻击
📋 核心要点
- 现有越狱攻击主要集中在纯文本提示,忽略了文本结构对LLM安全性的影响,存在结构利用不足的问题。
- StructuralSleight 提出基于罕见文本组织结构(UTOS)的结构级攻击,并结合混淆技术,提升攻击的隐蔽性和有效性。
- 实验表明,StructuralSleight 在多种 LLM 上显著优于现有方法,在 GPT-4o 上攻击成功率高达 94.62%。
📝 摘要(中文)
大型语言模型(LLMs)在自然语言处理中得到广泛应用,但也面临着恶意诱导其生成有害内容的越狱攻击风险。现有的越狱攻击,包括字符级和上下文级攻击,主要集中在纯文本提示上,而没有专门探索提示结构的重要影响。本文重点研究提示结构如何促进越狱攻击。我们提出了一种基于长尾结构的新型结构级攻击方法,称之为罕见文本组织结构(UTOS)。我们广泛研究了12个UTOS模板和6种混淆方法,构建了一个有效的自动化越狱工具StructuralSleight,该工具包含三种逐步升级的攻击策略:结构攻击、结构与字符/上下文混淆攻击以及完全混淆的结构攻击。在现有LLM上的大量实验表明,StructuralSleight明显优于基线方法。特别是在GPT-4o上的攻击成功率达到94.62%,这是最先进技术尚未解决的问题。
🔬 方法详解
问题定义:现有的大型语言模型越狱攻击主要集中在字符级别和上下文级别,忽略了文本组织结构对模型安全性的影响。这些方法未能充分利用文本结构中的潜在漏洞,导致攻击效果受限,尤其是在面对防御能力较强的模型时。
核心思路:本文的核心思路是利用大型语言模型对罕见文本组织结构(Uncommon Text-Organization Structures, UTOS)的理解不足,通过构造特定的结构化提示,诱导模型生成有害内容。这种方法的核心在于利用模型在处理非典型文本结构时的脆弱性。
技术框架:StructuralSleight 包含三个主要的攻击阶段:1) 结构攻击:利用预定义的 UTOS 模板生成结构化提示;2) 结构与字符/上下文混淆攻击:在结构化提示的基础上,进一步应用字符级和上下文级的混淆技术,增加攻击的隐蔽性;3) 完全混淆的结构攻击:结合多种混淆方法,最大程度地隐藏攻击意图。整个框架旨在通过逐步升级的攻击策略,提高越狱攻击的成功率。
关键创新:该论文最重要的创新点在于提出了结构级攻击的概念,并将其与现有的字符级和上下文级攻击相结合。通过利用罕见文本组织结构,StructuralSleight 能够有效地绕过模型的安全防御机制,实现更高的攻击成功率。与现有方法相比,该方法更加关注文本结构的利用,从而能够发现新的攻击向量。
关键设计:StructuralSleight 采用了 12 种 UTOS 模板,这些模板涵盖了不同的文本组织方式,例如列表、表格、代码等。此外,该工具还集成了 6 种混淆方法,包括字符替换、同义词替换、语序调整等。这些混淆方法可以有效地隐藏攻击意图,提高攻击的隐蔽性。攻击策略采用逐步升级的方式,首先尝试简单的结构攻击,如果失败则逐步增加混淆的程度。
🖼️ 关键图片
📊 实验亮点
StructuralSleight 在多个大型语言模型上进行了广泛的实验,结果表明其攻击成功率显著优于现有的基线方法。特别是在 GPT-4o 上,StructuralSleight 的攻击成功率达到了 94.62%,这表明该方法能够有效地绕过最先进模型的安全防御机制。实验结果充分证明了结构级攻击的有效性和实用性。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型的安全性,帮助开发者发现模型在处理结构化文本时的潜在漏洞。此外,该研究还可以为开发更有效的防御机制提供思路,例如通过增强模型对罕见文本结构的理解能力,从而提高模型的鲁棒性。该研究对于构建更安全可靠的AI系统具有重要意义。
📄 摘要(原文)
Large Language Models (LLMs) are widely used in natural language processing but face the risk of jailbreak attacks that maliciously induce them to generate harmful content. Existing jailbreak attacks, including character-level and context-level attacks, mainly focus on the prompt of plain text without specifically exploring the significant influence of its structure. In this paper, we focus on studying how the prompt structure contributes to the jailbreak attack. We introduce a novel structure-level attack method based on long-tailed structures, which we refer to as Uncommon Text-Organization Structures (UTOS). We extensively study 12 UTOS templates and 6 obfuscation methods to build an effective automated jailbreak tool named StructuralSleight that contains three escalating attack strategies: Structural Attack, Structural and Character/Context Obfuscation Attack, and Fully Obfuscated Structural Attack. Extensive experiments on existing LLMs show that StructuralSleight significantly outperforms the baseline methods. In particular, the attack success rate reaches 94.62\% on GPT-4o, which has not been addressed by state-of-the-art techniques.