AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization
作者: Jiawei Chen, Xiao Yang, Zhengwei Fang, Yu Tian, Yinpeng Dong, Zhaoxia Yin, Hang Su
分类: cs.CV
发布日期: 2024-05-30
备注: Under review
💡 一句话要点
AutoBreach:利用高效文字游戏优化实现通用自适应的大语言模型越狱攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 越狱攻击 对抗性提示 文字游戏 安全漏洞
📋 核心要点
- 现有LLM越狱方法存在通用性差、效率低、依赖人工设计等问题,难以有效应对不断演进的防御机制。
- AutoBreach利用文字游戏生成对抗性提示,通过LLM的自动总结和推理能力,减轻人工设计负担,提升越狱的通用性和效率。
- 实验表明,AutoBreach在多种LLM上实现了超过80%的越狱成功率,且仅需少量查询,验证了其有效性和高效性。
📝 摘要(中文)
尽管大型语言模型(LLMs)在各种任务中得到广泛应用,但最近的研究表明,它们容易受到越狱攻击,这可能导致其防御机制失效。然而,以往的越狱研究常常受到通用性有限、效率欠佳以及依赖手动设计等因素的制约。针对这些问题,我们重新思考了LLMs的越狱方法,并从攻击者的角度正式定义了三个基本属性,从而指导越狱方法的设计。我们进一步提出了AutoBreach,一种仅需黑盒访问即可越狱LLMs的新方法。受到文字游戏多功能性的启发,AutoBreach采用一种文字游戏引导的映射规则采样策略,生成各种通用的映射规则,用于创建对抗性提示。此生成过程利用LLMs的自动总结和推理能力,从而减轻了手动负担。为了提高越狱成功率,我们进一步提出了基于句子压缩和思维链的映射规则,以纠正目标LLMs中的错误和文字游戏误解。此外,我们提出了一种两阶段映射规则优化策略,该策略首先优化映射规则,然后再查询目标LLMs,以提高AutoBreach的效率。AutoBreach可以有效地识别各种LLMs(包括三个专有模型:Claude-3、GPT-3.5、GPT-4 Turbo,以及两个LLMs的Web平台:Bingchat、GPT-4 Web)中的安全漏洞,在少于10次查询的情况下,平均成功率超过80%。
🔬 方法详解
问题定义:现有的大语言模型(LLMs)容易受到越狱攻击,攻击者可以通过构造特定的输入(对抗性提示)绕过模型的安全机制,使其产生有害或不当的输出。以往的越狱方法通常依赖于人工设计提示,或者通用性不足,无法适应不同模型和防御策略,效率也较低,需要大量的查询才能找到有效的攻击。
核心思路:AutoBreach的核心思路是利用文字游戏的多样性和灵活性,自动生成对抗性提示。通过将原始输入映射到包含文字游戏的变体,可以有效地欺骗LLMs,使其产生预期的有害输出。这种方法旨在减轻人工设计的负担,提高越狱的通用性和效率。
技术框架:AutoBreach包含以下几个主要阶段:1) 文字游戏引导的映射规则采样:利用LLMs的自动总结和推理能力,生成各种通用的映射规则,用于创建对抗性提示。2) 提示生成:根据生成的映射规则,将原始输入转换为对抗性提示。3) 两阶段映射规则优化:首先优化映射规则,然后再查询目标LLMs,以提高AutoBreach的效率。4) 句子压缩和思维链:使用句子压缩和思维链技术来纠正目标LLMs中的错误和文字游戏误解。
关键创新:AutoBreach的关键创新在于其自动化的对抗性提示生成方法,该方法利用文字游戏作为核心策略,并结合LLMs自身的推理能力来生成有效的攻击。与以往依赖人工设计或简单优化的方法相比,AutoBreach能够更高效、更通用地发现LLMs的安全漏洞。
关键设计:AutoBreach的关键设计包括:1) 文字游戏映射规则:定义了如何将原始输入转换为包含文字游戏的对抗性提示。2) 两阶段优化策略:通过先优化映射规则再查询目标LLMs,提高了攻击效率。3) 句子压缩和思维链:用于提高越狱成功率,纠正LLM的误解。
🖼️ 关键图片
📊 实验亮点
AutoBreach在包括Claude-3、GPT-3.5、GPT-4 Turbo、Bingchat和GPT-4 Web在内的多个LLM上进行了测试,平均越狱成功率超过80%,且仅需少于10次查询。这一结果表明AutoBreach具有很高的效率和通用性,能够有效地识别各种LLM中的安全漏洞。
🎯 应用场景
AutoBreach可用于评估和提升大型语言模型的安全性,帮助开发者发现和修复潜在的安全漏洞。该研究成果对于构建更安全、更可靠的AI系统具有重要意义,可应用于金融、医疗、法律等对安全性要求较高的领域,降低LLM被恶意利用的风险。
📄 摘要(原文)
Despite the widespread application of large language models (LLMs) across various tasks, recent studies indicate that they are susceptible to jailbreak attacks, which can render their defense mechanisms ineffective. However, previous jailbreak research has frequently been constrained by limited universality, suboptimal efficiency, and a reliance on manual crafting. In response, we rethink the approach to jailbreaking LLMs and formally define three essential properties from the attacker' s perspective, which contributes to guiding the design of jailbreak methods. We further introduce AutoBreach, a novel method for jailbreaking LLMs that requires only black-box access. Inspired by the versatility of wordplay, AutoBreach employs a wordplay-guided mapping rule sampling strategy to generate a variety of universal mapping rules for creating adversarial prompts. This generation process leverages LLMs' automatic summarization and reasoning capabilities, thus alleviating the manual burden. To boost jailbreak success rates, we further suggest sentence compression and chain-of-thought-based mapping rules to correct errors and wordplay misinterpretations in target LLMs. Additionally, we propose a two-stage mapping rule optimization strategy that initially optimizes mapping rules before querying target LLMs to enhance the efficiency of AutoBreach. AutoBreach can efficiently identify security vulnerabilities across various LLMs, including three proprietary models: Claude-3, GPT-3.5, GPT-4 Turbo, and two LLMs' web platforms: Bingchat, GPT-4 Web, achieving an average success rate of over 80% with fewer than 10 queries