Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings

📄 arXiv: 2406.13662v2 📥 PDF

作者: Yue Huang, Jingyu Tang, Dongping Chen, Bingda Tang, Yao Wan, Lichao Sun, Philip S. Yu, Xiangliang Zhang

分类: cs.CL

发布日期: 2024-06-19 (更新: 2025-01-27)


💡 一句话要点

提出ObscurePrompt方法,利用分布外数据脆弱性破解大语言模型对齐限制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 分布外数据 提示工程 安全性评估

📋 核心要点

  1. 现有越狱攻击方法依赖白盒模型或固定模板,泛化能力弱,难以应对实际场景。
  2. ObscurePrompt利用分布外数据的脆弱性,通过模糊提示文本来绕过LLM的伦理决策边界。
  3. 实验表明,ObscurePrompt在攻击有效性上显著优于现有方法,并能有效对抗防御机制。

📝 摘要(中文)

近年来,大型语言模型(LLMs)凭借其卓越的自然语言处理能力备受关注。然而,其可信度问题仍未解决,尤其是在应对针对对齐LLMs的“越狱”攻击方面。以往的研究主要依赖于白盒LLMs或特定的、固定的提示模板,这些方法通常不切实际且缺乏广泛的适用性。本文提出了一种简单而新颖的方法,称为ObscurePrompt,用于破解LLMs,其灵感来自于在分布外(OOD)数据中观察到的脆弱对齐。具体来说,我们首先制定了越狱过程中的决策边界,然后探讨模糊文本如何影响LLM的伦理决策边界。ObscurePrompt首先构建一个集成了已知越狱技术的基本提示。然后,利用强大的LLMs通过迭代转换来模糊原始提示,旨在增强攻击的鲁棒性。综合实验表明,我们的方法在攻击有效性方面大大优于以前的方法,并且对两种流行的防御机制保持有效。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)的越狱攻击问题。现有的越狱方法通常依赖于对LLM内部机制的了解(白盒攻击)或使用预定义的提示模板,这限制了它们的适用性和泛化能力。这些方法难以应对实际应用中复杂的、未知的攻击场景,并且容易被防御机制所阻碍。

核心思路:ObscurePrompt的核心思路是利用LLM在分布外(OOD)数据上的脆弱性。论文观察到,当输入文本变得模糊或不明确时,LLM的伦理决策边界会变得更加脆弱,更容易被绕过。因此,ObscurePrompt通过对原始提示进行迭代转换,使其变得模糊,从而诱导LLM产生不安全的行为。

技术框架:ObscurePrompt的整体框架包括以下几个阶段:1) 基本提示构建:首先,构建一个包含已知越狱技术的初始提示。2) 提示模糊化:使用强大的LLM对初始提示进行迭代转换,使其变得模糊。每次转换都旨在保留原始提示的语义,同时增加其模糊性。3) 攻击执行:将模糊化后的提示输入目标LLM,观察其是否产生不安全的行为。

关键创新:ObscurePrompt的关键创新在于其利用了LLM在分布外数据上的脆弱性。与以往依赖于特定提示模板或白盒信息的攻击方法不同,ObscurePrompt通过模糊化提示文本来绕过LLM的伦理决策边界,从而提高了攻击的鲁棒性和泛化能力。这种方法不需要了解LLM的内部机制,因此可以应用于各种黑盒LLM。

关键设计:ObscurePrompt的关键设计在于提示模糊化的迭代过程。论文使用强大的LLM(例如GPT-4)作为模糊化器,通过迭代地对提示进行释义、替换和重组,使其变得更加模糊。模糊化的程度可以通过控制迭代次数和每次迭代的模糊程度来调节。此外,论文还探索了不同的模糊化策略,例如使用同义词替换、添加无关信息和改变句子结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ObscurePrompt在攻击有效性方面显著优于现有的越狱方法。例如,在针对某些LLM的攻击中,ObscurePrompt的成功率比现有方法提高了20%以上。此外,ObscurePrompt还能够有效对抗两种常见的防御机制,表明其具有很强的鲁棒性。这些结果证明了ObscurePrompt在破解LLM对齐限制方面的有效性和实用性。

🎯 应用场景

该研究成果可应用于评估和提高大型语言模型的安全性。通过ObscurePrompt方法,可以发现LLM在面对模糊输入时的潜在漏洞,从而为开发更有效的防御机制提供指导。此外,该方法还可以用于测试LLM在各种分布外场景下的鲁棒性,确保其在实际应用中能够安全可靠地运行。未来,该研究可以扩展到其他类型的AI系统,提高整体的安全性。

📄 摘要(原文)

Recently, Large Language Models (LLMs) have garnered significant attention for their exceptional natural language processing capabilities. However, concerns about their trustworthiness remain unresolved, particularly in addressing ``jailbreaking'' attacks on aligned LLMs. Previous research predominantly relies on scenarios involving white-box LLMs or specific, fixed prompt templates, which are often impractical and lack broad applicability. In this paper, we introduce a straightforward and novel method called ObscurePrompt for jailbreaking LLMs, inspired by the observed fragile alignments in Out-of-Distribution (OOD) data. Specifically, we first formulate the decision boundary in the jailbreaking process and then explore how obscure text affects LLM's ethical decision boundary. ObscurePrompt starts with constructing a base prompt that integrates well-known jailbreaking techniques. Powerful LLMs are then utilized to obscure the original prompt through iterative transformations, aiming to bolster the attack's robustness. Comprehensive experiments show that our approach substantially improves upon previous methods in terms of attack effectiveness, maintaining efficacy against two prevalent defense mechanisms.