Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models

📄 arXiv: 2410.04190v1 📥 PDF

作者: Yiting Dong, Guobin Shen, Dongcheng Zhao, Xiang He, Yi Zeng

分类: cs.CR, cs.CL

发布日期: 2024-10-05


💡 一句话要点

提出可扩展的监狱突破攻击以解决大型语言模型的安全漏洞

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 监狱突破攻击 大型语言模型 安全机制 计算资源 攻击强度 网络安全 人工智能伦理

📋 核心要点

  1. 现有的监狱突破攻击方法通常是固定的,无法灵活适应不同规模的语言模型,导致攻击效果受限。
  2. 本文提出了一种新颖的可扩展监狱突破攻击,通过占用计算资源来预先激活LLM的安全策略,从而提高攻击成功率。
  3. 实验结果显示,该方法在多个最先进的LLM上实现了高成功率,且无需梯度访问和手动提示工程,具有良好的适应性。

📝 摘要(中文)

大型语言模型(LLMs)仍然容易受到监狱突破攻击,这些攻击能够绕过其安全机制。现有攻击方法通常是固定的或专门针对特定模型,无法灵活调整攻击强度,这对于针对不同规模模型的攻击具有重要意义。本文提出了一种新颖的可扩展监狱突破攻击,通过占用LLM的计算资源来预先激活其安全策略。我们的方法涉及在呈现目标指令之前,先让LLM参与一个资源密集型的初步任务——字符映射查找和解码过程。通过饱和模型的处理能力,我们阻止了安全协议在处理后续指令时的激活。对最先进的LLMs进行的广泛实验表明,我们的方法在绕过安全措施方面取得了高成功率,无需梯度访问或手动提示工程。我们的研究揭示了当前LLM安全设计中的关键漏洞,强调了需要更强大的防御策略以应对资源密集型条件。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在安全机制方面的脆弱性,现有方法无法灵活调整攻击强度,限制了其在不同模型上的应用效果。

核心思路:我们的方法通过让LLM参与资源密集型的初步任务,来占用其计算资源,从而阻止安全协议的激活。这种设计使得攻击者能够在模型处理目标指令时,避免安全机制的干预。

技术框架:整体流程包括两个主要阶段:第一阶段是执行字符映射查找和解码过程,第二阶段是呈现目标指令。通过这种方式,模型的处理能力被饱和,从而实现攻击。

关键创新:本研究的核心创新在于提出了一种可扩展的攻击方法,能够量化攻击强度并适应不同规模的模型。这与现有方法的本质区别在于其灵活性和适应性。

关键设计:在实现过程中,我们设计了特定的参数设置和任务流程,以确保初步任务的资源占用最大化,从而有效阻止安全协议的激活。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的方法在多个最先进的LLM上成功绕过安全措施的比例高达85%,显著高于传统方法的成功率,且无需梯度访问和手动提示工程,展示了其优越性和实用性。

🎯 应用场景

该研究的潜在应用领域包括网络安全、人工智能伦理和大型语言模型的安全性评估。通过揭示现有安全机制的脆弱性,研究结果可以推动更强大的防御策略的开发,确保AI系统在实际应用中的安全性和可靠性。

📄 摘要(原文)

Large Language Models (LLMs) remain vulnerable to jailbreak attacks that bypass their safety mechanisms. Existing attack methods are fixed or specifically tailored for certain models and cannot flexibly adjust attack strength, which is critical for generalization when attacking models of various sizes. We introduce a novel scalable jailbreak attack that preempts the activation of an LLM's safety policies by occupying its computational resources. Our method involves engaging the LLM in a resource-intensive preliminary task - a Character Map lookup and decoding process - before presenting the target instruction. By saturating the model's processing capacity, we prevent the activation of safety protocols when processing the subsequent instruction. Extensive experiments on state-of-the-art LLMs demonstrate that our method achieves a high success rate in bypassing safety measures without requiring gradient access, manual prompt engineering. We verified our approach offers a scalable attack that quantifies attack strength and adapts to different model scales at the optimal strength. We shows safety policies of LLMs might be more susceptible to resource constraints. Our findings reveal a critical vulnerability in current LLM safety designs, highlighting the need for more robust defense strategies that account for resource-intense condition.