BreakFun: Jailbreaking LLMs via Schema Exploitation

📄 arXiv: 2510.17904v2 📥 PDF

作者: Amirkia Rafiei Oskooei, Mehmet S. Aktas

分类: cs.CR, cs.AI, cs.CL

发布日期: 2025-10-19 (更新: 2025-12-13)


💡 一句话要点

BreakFun:利用模式漏洞攻击大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 模式漏洞 对抗性攻击 安全防御 结构化数据 特洛伊模式

📋 核心要点

  1. 大型语言模型在处理结构化数据时表现出强大的能力,但也因此容易受到利用结构化模式的攻击。
  2. BreakFun方法通过构造包含“特洛伊模式”的恶意提示,诱导LLM生成有害内容,从而实现越狱攻击。
  3. 实验表明,BreakFun攻击在多个LLM上具有高成功率,并且提出的防御机制能够有效缓解此类攻击。

📝 摘要(中文)

大型语言模型(LLM)在处理结构化数据和遵守语法规则方面的能力,推动了它们的广泛应用,但也使其变得异常脆弱。本文通过BreakFun研究了这种脆弱性,BreakFun是一种利用LLM对结构化模式的遵守来进行攻击的越狱方法。BreakFun采用了一个三部分提示,将无害的框架和思维链干扰与核心的“特洛伊模式”相结合——一种精心设计的数据结构,迫使模型生成有害内容,利用LLM遵循结构和模式的强烈倾向。我们证明了这种漏洞具有高度的可迁移性,在JailbreakBench上的13个基础模型和专有模型中,平均成功率达到89%,并在几个著名的模型上达到了100%的攻击成功率(ASR)。一项严格的消融研究证实,这种特洛伊模式是攻击的主要因果因素。为了应对这种情况,我们引入了对抗性提示解构防护栏,这是一种利用辅助LLM执行“字面转录”的防御措施——提取所有人类可读的文本,以隔离和揭示用户真正的有害意图。我们的概念验证防护栏证明了对攻击的高效性,验证了针对欺骗性模式是一种可行的缓解策略。我们的工作提供了一种视角,即LLM的核心优势如何转化为关键弱点,为构建更稳健对齐的模型提供了新的视角。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)容易受到利用结构化数据模式的对抗性攻击的问题。现有方法难以防御LLM对特定模式的过度依赖,导致模型在处理恶意构造的输入时产生有害输出。

核心思路:核心思路是利用LLM对结构化模式的固有偏好,通过精心设计的“特洛伊模式”诱导模型生成有害内容。这种模式被嵌入到看似无害的提示中,从而绕过现有的安全机制。

技术框架:BreakFun攻击框架包含三个主要部分:1) 无害的框架,用于伪装攻击意图;2) 思维链干扰,分散模型的注意力;3) 核心的“特洛伊模式”,即恶意构造的数据结构,用于触发有害内容的生成。防御机制“对抗性提示解构”则利用另一个LLM提取提示中的所有人类可读文本,以识别潜在的恶意模式。

关键创新:关键创新在于发现并利用了LLM对结构化模式的脆弱性,提出了一种新颖的越狱攻击方法。与传统的对抗性攻击不同,BreakFun不依赖于梯度扰动或语义欺骗,而是直接操纵模型的结构化数据处理能力。

关键设计:特洛伊模式的设计至关重要,需要精心构造数据结构,使其既能被LLM正确解析,又能触发有害内容的生成。对抗性提示解构的关键在于准确提取人类可读文本,并有效识别其中的恶意模式。具体的参数设置和网络结构细节在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BreakFun攻击在13个不同的LLM上取得了平均89%的攻击成功率,在某些模型上甚至达到了100%。消融实验证实了“特洛伊模式”是攻击成功的关键因素。提出的对抗性提示解构防御机制能够有效降低攻击成功率,验证了针对欺骗性模式进行防御的可行性。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性,特别是在处理结构化数据时的鲁棒性。通过识别和缓解LLM对特定模式的脆弱性,可以有效防止恶意用户利用这些漏洞进行攻击,从而提高LLM在实际应用中的可靠性和安全性。此外,该研究也为开发更有效的防御机制提供了新的思路。

📄 摘要(原文)

The proficiency of Large Language Models (LLMs) in processing structured data and adhering to syntactic rules is a capability that drives their widespread adoption but also makes them paradoxically vulnerable. In this paper, we investigate this vulnerability through BreakFun, a jailbreak methodology that weaponizes an LLM's adherence to structured schemas. BreakFun employs a three-part prompt that combines an innocent framing and a Chain-of-Thought distraction with a core "Trojan Schema"--a carefully crafted data structure that compels the model to generate harmful content, exploiting the LLM's strong tendency to follow structures and schemas. We demonstrate this vulnerability is highly transferable, achieving an average success rate of 89% across 13 foundational and proprietary models on JailbreakBench, and reaching a 100% Attack Success Rate (ASR) on several prominent models. A rigorous ablation study confirms this Trojan Schema is the attack's primary causal factor. To counter this, we introduce the Adversarial Prompt Deconstruction guardrail, a defense that utilizes a secondary LLM to perform a "Literal Transcription"--extracting all human-readable text to isolate and reveal the user's true harmful intent. Our proof-of-concept guardrail demonstrates high efficacy against the attack, validating that targeting the deceptive schema is a viable mitigation strategy. Our work provides a look into how an LLM's core strengths can be turned into critical weaknesses, offering a fresh perspective for building more robustly aligned models.