Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles
作者: Zhilong Wang, Haizhou Wang, Nanqing Luo, Lan Zhang, Xiaoyan Sun, Yebo Cao, Peng Liu
分类: cs.CR, cs.AI
发布日期: 2024-08-20 (更新: 2025-02-07)
💡 一句话要点
提出基于载体文章的黑盒越狱方法,提升大语言模型安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 越狱攻击 黑盒攻击 提示注入 载体文章
📋 核心要点
- 现有黑盒越狱方法难以有效绕过LLM的安全防护,生成违禁内容,对模型安全性构成威胁。
- 该方法通过构造包含载体文章的payload prompt,激活与违禁查询相关的神经元,抑制不良文本的生成。
- 实验结果表明,该方法在JailbreakBench上取得了63%的平均成功率,显著优于现有黑盒方法。
📝 摘要(中文)
本文提出了一种新颖的黑盒越狱方法,旨在绕过大型语言模型(LLM)的安全防护机制,使其生成不符合安全使用准则的内容。该方法基于自注意力计算过程的洞察,通过将违禁查询策略性地注入到载体文章中来构造有效载荷提示。载体文章与违禁查询保持语义上的接近性,通过结合上位词文章和上下文自动生成,二者均源自违禁查询。使用载体文章的直觉是激活模型中与违禁查询语义相关的神经元,同时抑制那些会触发不良文本的神经元。载体文章本身是良性的,我们利用提示注入技术来生成有效载荷提示。我们在JailbreakBench上评估了我们的方法,针对四个目标模型测试了100个不同的越狱目标。实验结果表明,我们的方法具有卓越的有效性,在所有目标模型上实现了63%的平均成功率,显著优于现有的黑盒越狱方法。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)的黑盒越狱问题。现有的黑盒越狱方法通常难以有效地绕过LLM的安全防护机制,从而导致模型可能生成有害或不当的内容。这些方法的痛点在于难以在不暴露恶意意图的情况下,引导LLM产生目标输出。
核心思路:论文的核心思路是将违禁查询巧妙地隐藏在良性的载体文章中。通过这种方式,可以激活LLM中与违禁查询相关的语义信息,同时避免直接触发安全机制。载体文章的设计目标是既能保持与违禁查询的语义相关性,又能避免直接包含敏感词汇。
技术框架:该方法主要包含以下几个阶段:1) 违禁查询生成:确定需要绕过LLM安全机制的目标查询。2) 载体文章生成:利用违禁查询生成上位词文章和上下文,并将二者结合形成载体文章。3) Payload Prompt构造:将载体文章与提示注入技术相结合,生成最终的Payload Prompt。4) 攻击执行:将Payload Prompt输入目标LLM,观察其输出是否符合越狱目标。
关键创新:该方法的关键创新在于利用载体文章作为桥梁,间接地引导LLM生成违禁内容。与直接注入违禁查询相比,这种方法更隐蔽,更不容易被LLM的安全机制检测到。此外,自动生成载体文章的方式也提高了攻击的效率和可扩展性。
关键设计:载体文章的生成是该方法的核心。具体而言,首先从违禁查询中提取关键词,然后利用这些关键词在知识库中检索相关的上位词文章。同时,根据违禁查询生成一段上下文描述。最后,将上位词文章和上下文拼接在一起,形成最终的载体文章。提示注入技术的选择也至关重要,需要选择能够有效引导LLM理解载体文章并生成目标输出的注入方式。具体的参数设置和损失函数在论文中未明确提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在JailbreakBench测试集上取得了显著的性能提升,平均成功率达到63%,远超现有的黑盒越狱方法。该方法在四个不同的目标模型上均表现出良好的效果,证明了其通用性和有效性。具体的性能提升幅度取决于目标模型和越狱目标。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型的安全性。通过模拟黑盒攻击,可以发现LLM在安全防护方面的潜在漏洞,并为开发更有效的防御机制提供指导。此外,该方法也可以用于测试LLM在处理敏感信息时的鲁棒性。
📄 摘要(原文)
Large Language Model (LLM) jailbreak refers to a type of attack aimed to bypass the safeguard of an LLM to generate contents that are inconsistent with the safe usage guidelines. Based on the insights from the self-attention computation process, this paper proposes a novel blackbox jailbreak approach, which involves crafting the payload prompt by strategically injecting the prohibited query into a carrier article. The carrier article maintains the semantic proximity to the prohibited query, which is automatically produced by combining a hypernymy article and a context, both of which are generated from the prohibited query. The intuition behind the usage of carrier article is to activate the neurons in the model related to the semantics of the prohibited query while suppressing the neurons that will trigger the objectionable text. Carrier article itself is benign, and we leveraged prompt injection techniques to produce the payload prompt. We evaluate our approach using JailbreakBench, testing against four target models across 100 distinct jailbreak objectives. The experimental results demonstrate our method's superior effectiveness, achieving an average success rate of 63% across all target models, significantly outperforming existing blackbox jailbreak methods.