Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation
作者: Wenlong Meng, Fan Zhang, Wendao Yao, Zhenyuan Guo, Yuwei Li, Chengkun Wei, Wenzhi Chen
分类: cs.CL
发布日期: 2025-03-11
备注: 17 pages, 10 figures
💡 一句话要点
提出对话注入攻击(DIA),利用对话历史破解大型语言模型
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 越狱攻击 对话注入攻击 对抗性提示 黑盒攻击
📋 核心要点
- 现有越狱攻击主要关注单轮交互,忽略了历史对话对LLM行为的影响,导致攻击效果受限。
- 提出对话注入攻击(DIA),通过构造对抗性历史对话,影响LLM的后续行为,提高越狱攻击的成功率。
- 实验表明,DIA在Llama-3.1和GPT-4o等模型上取得了SOTA的攻击成功率,并能有效绕过多种防御机制。
📝 摘要(中文)
大型语言模型(LLMs)在各种应用中展现出显著的效用;然而,其部署受到安全漏洞的困扰,尤其是越狱攻击。这些攻击通过精心设计的对抗性提示来操纵LLMs,使其生成有害或不道德的内容。目前关于越狱攻击的大部分研究都集中在单轮交互上,而很大程度上忽略了历史对话对模型行为的影响。在本文中,我们介绍了一种新的越狱范式,即对话注入攻击(DIA),它利用对话历史来提高此类攻击的成功率。DIA在黑盒设置中运行,只需要访问聊天API或了解LLM的聊天模板。我们提出了两种构建对抗性历史对话的方法:一种是改编灰盒预填充攻击,另一种是利用延迟响应。我们的实验表明,DIA在最新的LLMs(包括Llama-3.1和GPT-4o)上实现了最先进的攻击成功率。此外,我们证明了DIA可以绕过5种不同的防御机制,突显了其鲁棒性和有效性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在对话场景下的越狱攻击问题。现有的越狱攻击方法主要集中在单轮交互上,忽略了历史对话对模型行为的影响。这种忽略导致攻击效果受限,难以充分利用LLM的上下文理解能力进行对抗。
核心思路:论文的核心思路是利用对话历史来增强越狱攻击的成功率。通过在历史对话中注入对抗性内容,引导LLM在后续交互中产生有害或不道德的输出。这种方法模拟了真实对话场景中上下文对模型行为的影响,从而更有效地破解LLM的防御机制。
技术框架:DIA攻击框架主要包含以下几个阶段:1) 选择目标LLM和攻击目标(例如,生成特定类型的有害内容);2) 构建对抗性历史对话,包括使用灰盒预填充攻击或利用延迟响应等方法;3) 将构建的历史对话作为上下文输入LLM;4) 输入触发提示,诱导LLM生成目标内容;5) 评估攻击是否成功。整个过程在黑盒设置下进行,只需要访问LLM的API或了解其聊天模板。
关键创新:DIA的关键创新在于将对话历史引入越狱攻击,打破了传统单轮攻击的局限性。通过构造对抗性的上下文,DIA能够更有效地利用LLM的上下文理解能力,绕过防御机制,提高攻击成功率。此外,论文提出的两种构建对抗性历史对话的方法(灰盒预填充攻击和利用延迟响应)也具有创新性。
关键设计:论文提出了两种构建对抗性历史对话的方法。一种是改编灰盒预填充攻击,通过分析LLM的内部状态,构造能够影响其后续行为的特定文本。另一种是利用延迟响应,通过在历史对话中插入一些未完成的陈述或问题,诱导LLM在后续交互中补全这些信息,从而实现攻击目标。具体的参数设置和损失函数未知,因为该方法是在黑盒设置下进行的。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DIA在Llama-3.1和GPT-4o等最新的LLMs上实现了最先进的攻击成功率。此外,DIA还能够成功绕过5种不同的防御机制,证明了其鲁棒性和有效性。这些结果表明,对话历史是LLM安全性的一个重要因素,需要引起研究人员和开发者的重视。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型在对话场景下的安全性。通过模拟对话注入攻击,可以发现LLM的潜在漏洞,并开发更有效的防御机制。此外,该研究还可以帮助开发者更好地理解LLM的上下文理解能力,从而设计更安全、更可靠的对话系统。
📄 摘要(原文)
Large language models (LLMs) have demonstrated significant utility in a wide range of applications; however, their deployment is plagued by security vulnerabilities, notably jailbreak attacks. These attacks manipulate LLMs to generate harmful or unethical content by crafting adversarial prompts. While much of the current research on jailbreak attacks has focused on single-turn interactions, it has largely overlooked the impact of historical dialogues on model behavior. In this paper, we introduce a novel jailbreak paradigm, Dialogue Injection Attack (DIA), which leverages the dialogue history to enhance the success rates of such attacks. DIA operates in a black-box setting, requiring only access to the chat API or knowledge of the LLM's chat template. We propose two methods for constructing adversarial historical dialogues: one adapts gray-box prefilling attacks, and the other exploits deferred responses. Our experiments show that DIA achieves state-of-the-art attack success rates on recent LLMs, including Llama-3.1 and GPT-4o. Additionally, we demonstrate that DIA can bypass 5 different defense mechanisms, highlighting its robustness and effectiveness.