Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles

📄 arXiv: 2408.04686v1 📥 PDF

作者: Xiongtao Sun, Deyue Zhang, Dongdong Yang, Quanchen Zou, Hui Li

分类: cs.CL, cs.AI

发布日期: 2024-08-08


💡 一句话要点

提出上下文融合攻击(CFA)方法,提升多轮对话场景下大语言模型的越狱攻击成功率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 多轮对话 上下文融合 黑盒攻击

📋 核心要点

  1. 现有多轮对话越狱攻击方法缺乏对多轮对话上下文的有效利用,导致攻击过程中语义出现偏差。
  2. 提出上下文融合攻击(CFA)方法,通过构建上下文场景并动态融合目标,隐藏恶意意图。
  3. 实验表明,CFA在多种主流LLMs上优于其他多轮攻击策略,尤其在Llama3和GPT-4上优势明显。

📝 摘要(中文)

大型语言模型(LLMs)显著提升了诸多应用的性能,从智能对话到文本生成。然而,其固有的安全漏洞已成为日益严峻的挑战,尤其是在越狱攻击方面。攻击者可以绕过LLMs的安全机制,突破安全约束并导致有害输出。本文关注多轮语义越狱攻击,观察到现有方法缺乏对多轮对话在攻击策略中作用的考量,导致连续交互过程中出现语义偏差。因此,本文通过考虑多轮对话对越狱攻击的支持,为多轮攻击建立了理论基础,并在此基础上提出了一种基于上下文的上下文融合黑盒越狱攻击方法,名为上下文融合攻击(CFA)。该方法包括从目标中过滤和提取关键术语,围绕这些术语构建上下文场景,将目标动态集成到场景中,替换目标中的恶意关键术语,从而隐藏直接的恶意意图。通过在各种主流LLMs和红队数据集上的比较,证明了CFA相比其他多轮攻击策略具有更高的成功率、发散性和有害性,尤其是在Llama3和GPT-4上表现出显著优势。

🔬 方法详解

问题定义:现有针对大型语言模型的多轮对话越狱攻击方法,未能充分利用多轮对话的上下文信息。攻击者在连续对话中注入恶意指令时,容易因为缺乏上下文关联而导致语义偏差,使得LLM更容易识别并拒绝恶意请求。现有方法难以有效隐藏攻击意图,降低了攻击的成功率。

核心思路:本文的核心思路是通过构建与目标相关的上下文场景,并将恶意指令动态地融入到这些场景中,从而模糊攻击意图。通过上下文的掩盖,使得LLM难以直接识别出恶意指令,从而提高越狱攻击的成功率。这种方法模拟了人类在对话中通过迂回的方式表达恶意意图的策略。

技术框架:CFA方法主要包含以下几个阶段:1) 关键术语提取:从目标恶意指令中提取关键术语。2) 上下文场景构建:围绕提取的关键术语,构建相关的上下文场景。3) 目标动态融合:将恶意指令动态地融入到构建的上下文场景中。4) 恶意术语替换:替换恶意指令中的关键术语,进一步隐藏恶意意图。整个过程旨在创建一个看似无害的对话环境,从而诱导LLM生成有害内容。

关键创新:CFA的关键创新在于其上下文融合机制。与以往直接注入恶意指令的方法不同,CFA通过构建上下文场景来间接传递恶意意图。这种方法更贴近人类的攻击方式,能够更有效地绕过LLM的安全防御机制。此外,动态融合和恶意术语替换进一步增强了攻击的隐蔽性。

关键设计:CFA的具体实现细节包括:1) 使用特定的算法(具体算法未知)从目标指令中提取关键术语。2) 利用外部知识库或LLM本身生成与关键术语相关的上下文场景。3) 设计一种动态融合策略,将目标指令以自然的方式融入到上下文中。4) 使用同义词或近义词替换恶意指令中的关键术语。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于黑盒攻击范畴。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CFA方法在多种主流LLMs(包括Llama3和GPT-4)上取得了显著的越狱攻击成功率提升。与其他多轮攻击策略相比,CFA在成功率、发散性和有害性方面均表现出更优的性能。尤其是在Llama3和GPT-4上,CFA的优势更为明显,表明其能够有效地绕过这些模型的安全防御机制。具体的性能提升数据未在摘要中给出,需要参考论文全文。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性。通过CFA方法,可以有效地发现LLM的安全漏洞,并为开发更强大的防御机制提供参考。此外,该方法也可以用于红队演练,模拟真实的攻击场景,提高安全团队的应对能力。然而,需要注意的是,该技术也可能被恶意利用,因此在使用时应遵守相关法律法规和伦理规范。

📄 摘要(原文)

Large language models (LLMs) have significantly enhanced the performance of numerous applications, from intelligent conversations to text generation. However, their inherent security vulnerabilities have become an increasingly significant challenge, especially with respect to jailbreak attacks. Attackers can circumvent the security mechanisms of these LLMs, breaching security constraints and causing harmful outputs. Focusing on multi-turn semantic jailbreak attacks, we observe that existing methods lack specific considerations for the role of multiturn dialogues in attack strategies, leading to semantic deviations during continuous interactions. Therefore, in this paper, we establish a theoretical foundation for multi-turn attacks by considering their support in jailbreak attacks, and based on this, propose a context-based contextual fusion black-box jailbreak attack method, named Context Fusion Attack (CFA). This method approach involves filtering and extracting key terms from the target, constructing contextual scenarios around these terms, dynamically integrating the target into the scenarios, replacing malicious key terms within the target, and thereby concealing the direct malicious intent. Through comparisons on various mainstream LLMs and red team datasets, we have demonstrated CFA's superior success rate, divergence, and harmfulness compared to other multi-turn attack strategies, particularly showcasing significant advantages on Llama3 and GPT-4.