Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

📄 arXiv: 2605.17971v1 📥 PDF

作者: Ziwei Wang, Jing Chen, Ruichao Liang, Zhi Wang, Yebo Feng, Ju Jia, Ruiying Du, Cong Wu, Yang Liu

分类: cs.CR, cs.AI

发布日期: 2026-05-18


💡 一句话要点

Babel:通过优化混淆分布采样破解安全注意力机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 安全对齐 黑盒攻击 混淆采样

📋 核心要点

  1. 现有黑盒越狱攻击方法依赖启发式或穷举,缺乏可解释性且效率低,难以有效突破LLM的安全防线。
  2. Babel通过数学模型刻画了LLM安全机制的脆弱性,并利用优化混淆分布采样,高效探索越狱攻击空间。
  3. 实验表明,Babel在GPT-4o和Claude-3-5-haiku上显著提升了攻击成功率,同时保持了较高的查询效率。

📝 摘要(中文)

尽管大型语言模型(LLMs)经过了严格的安全对齐,但仍然容易受到越狱攻击。现有的黑盒方法通常依赖于启发式模板或穷举试验,缺乏机制上的可解释性和查询效率。本研究调查了LLMs安全机制中的一个内在漏洞,即安全对齐依赖于少量稀疏分布的注意力头,导致大部分表征空间缺乏有效监控。我们用一个数学越狱模型形式化了这种现象,该模型描述了有效文本混淆的微妙边界,并分析性地解释了观察到的越狱行为。在该模型的指导下,我们提出了Babel,一个高效的黑盒攻击框架,通过迭代的、反馈驱动的分布细化的系统混淆采样来利用已识别的安全漏洞,从而实现可靠和高成功率的越狱攻击,而无需访问模型内部结构。对前沿商业模型的全面评估表明,Babel实现了最先进的攻击成功率和卓越的查询效率。具体而言,与最先进的方法相比,Babel在平均40次查询内将GPT-4o的攻击成功率从41.33%提高到82.67%,将Claude-3-5-haiku的攻击成功率从38.33%提高到78.33%,为LLMs安全研究提供了一个强大的红队方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)的安全漏洞问题,即现有黑盒攻击方法效率低、缺乏可解释性,难以有效突破LLM的安全对齐机制。现有方法如启发式模板或穷举搜索,无法深入理解LLM安全机制的内在弱点,导致攻击效率低下。

核心思路:论文的核心思路是发现LLM的安全对齐依赖于少量稀疏分布的注意力头,大部分表征空间未被充分监控。通过构建数学模型来描述有效文本混淆的边界,并利用该模型指导混淆样本的生成,从而高效地探索越狱攻击空间。这样设计的目的是为了绕过LLM的安全机制,使其产生有害或不期望的输出。

技术框架:Babel框架包含以下主要阶段:1) 安全漏洞建模:通过数学模型刻画LLM安全机制的脆弱性,识别未被充分监控的表征空间。2) 混淆分布优化:基于安全漏洞模型,设计迭代的、反馈驱动的混淆分布优化算法,生成有效的混淆样本。3) 攻击执行:利用生成的混淆样本对LLM进行攻击,评估攻击成功率和查询效率。

关键创新:Babel的关键创新在于:1) 安全漏洞的数学建模:将LLM的安全漏洞形式化为数学模型,为攻击策略的设计提供了理论基础。2) 优化混淆分布采样:通过迭代优化混淆分布,高效地生成有效的混淆样本,显著提升了攻击效率。与现有方法相比,Babel不再依赖启发式规则或穷举搜索,而是基于对LLM安全机制内在弱点的理解进行攻击。

关键设计:Babel的关键设计包括:1) 混淆策略:选择合适的文本混淆方法,如插入特殊字符、改变词序等,以绕过LLM的安全检测。2) 反馈机制:根据LLM的输出结果,调整混淆分布,使生成的样本更具攻击性。3) 采样策略:采用高效的采样算法,如重要性采样或拒绝采样,从混淆分布中选择具有代表性的样本进行攻击。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Babel在GPT-4o和Claude-3-5-haiku等前沿商业模型上取得了显著的攻击成功率提升。在GPT-4o上,Babel将攻击成功率从41.33%提高到82.67%,在Claude-3-5-haiku上从38.33%提高到78.33%,平均查询次数为40次。这些结果表明Babel在攻击效率和成功率方面均优于现有方法。

🎯 应用场景

Babel可应用于LLM的安全评估和红队测试,帮助开发者发现和修复安全漏洞,提升LLM的安全性。此外,该研究的理论框架和方法论也可用于指导其他安全相关的研究,例如对抗样本生成和防御机制设计。该研究有助于构建更安全、更可靠的LLM系统。

📄 摘要(原文)

Despite rigorous safety alignment, Large Language Models (LLMs) remain vulnerable to jailbreak attacks. Existing black-box methods often rely on heuristic templates or exhaustive trials, lacking mechanistic interpretability and query efficiency. In this study, we investigate an intrinsic vulnerability in the safety mechanisms of LLMs, where safety alignment relies on a small set of sparsely distributed attention heads, leaving much of the representational space weakly monitored. We formalize this phenomenon with a mathematical jailbreaking model that characterizes the delicate boundary of effective text obfuscation and analytically explains observed jailbreak behaviors. Guided by this model, we propose Babel, an efficient black-box attack framework that exploits the identified safety gap through systematic obfuscation sampling with iterative, feedback-driven distribution refinement, enabling reliable and high-success jailbreak attacks without access to model internals. Comprehensive evaluations on frontier commercial models demonstrate that Babel achieves state-of-the-art attack success rates and superior query efficiency. Specifically, compared to state-of-the-art methods, Babel increases the attack success rate on GPT-4o from 41.33% to 82.67% and on Claude-3-5-haiku from 38.33% to 78.33% within an average of 40 queries, providing a robust red-teaming methodology for LLMs safety research.