RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking

📄 arXiv: 2409.17458v2 📥 PDF

作者: Yifan Jiang, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara, Subhabrata Mukherjee

分类: cs.CR, cs.CL, cs.LG

发布日期: 2024-09-26 (更新: 2025-06-07)

备注: Accepted in ACL 2025 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

提出RED QUEEN攻击,揭示大型语言模型在隐蔽多轮越狱攻击下的脆弱性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 多轮对话 红队测试 安全性评估

📋 核心要点

  1. 现有越狱攻击主要集中在单轮、显式恶意查询,未能充分模拟真实场景中用户通过多轮对话隐蔽意图的攻击。
  2. 提出RED QUEEN ATTACK,通过构建多轮对话场景,将恶意意图隐藏在防止危害的表象下,实现对LLM的隐蔽越狱。
  3. 实验表明,包括GPT-4o和Llama3-70B在内的主流LLM均易受RED QUEEN ATTACK攻击,且模型越大越容易被攻击。

📝 摘要(中文)

大型语言模型(LLM)的快速发展带来了机遇,但也带来了潜在的滥用风险。为了降低这些风险,红队测试被用作一种主动安全措施,通过越狱攻击来探测语言模型是否存在有害输出。然而,目前的越狱攻击方法是单轮的,带有明确的恶意查询,不能完全捕捉真实交互的复杂性。实际上,用户可以与基于LLM的聊天助手进行多轮交互,从而以更隐蔽的方式隐藏其真实意图。为了弥补这一差距,我们首先提出了一种新的越狱方法,即RED QUEEN ATTACK。该方法构建了一个多轮场景,将恶意意图隐藏在防止危害的幌子下。我们设计了40个不同轮次的场景,并选择了14个有害类别,生成了56k个多轮攻击数据点。我们使用RED QUEEN ATTACK对四个不同规模的代表性LLM家族进行了全面的实验。实验表明,所有LLM都容易受到RED QUEEN ATTACK的攻击,在GPT-4o上的攻击成功率达到87.62%,在Llama3-70B上的攻击成功率达到75.4%。进一步的分析表明,较大的模型更容易受到RED QUEEN ATTACK的影响,多轮结构和隐藏策略有助于其成功。为了优先考虑安全性,我们引入了一种名为RED QUEEN GUARD的简单缓解策略,该策略使LLM能够有效地对抗对抗性攻击。这种方法将攻击成功率降低到1%以下,同时保持了模型在标准基准测试中的性能。完整的实现和数据集可在https://github.com/kriti-hippo/red_queen公开访问。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)越狱攻击方法主要集中在单轮交互和显式恶意查询上。这种方法无法有效模拟真实世界中用户通过多轮对话逐步引导LLM产生有害内容的情况。现有的防御机制也主要针对单轮攻击进行设计,对多轮隐蔽攻击的防御能力不足。因此,如何设计一种能够有效评估和防御LLM在多轮隐蔽攻击下的安全性的方法是一个重要的挑战。

核心思路:RED QUEEN ATTACK的核心思路是通过构建一个多轮对话场景,将攻击者的恶意意图隐藏在看似无害的对话中。攻击者通过逐步引导LLM,最终使其产生有害内容。这种方法模拟了真实世界中用户可能采用的攻击方式,能够更有效地评估LLM的安全性。同时,RED QUEEN GUARD通过对LLM进行对齐,使其能够识别并拒绝执行潜在的恶意请求,从而提高其安全性。

技术框架:RED QUEEN ATTACK的整体框架包括以下几个步骤:1) 定义攻击场景:设计包含多个轮次的对话场景,每个场景都旨在引导LLM产生特定类型的有害内容。2) 生成攻击数据:根据定义的场景,生成大量的多轮对话数据,其中包含攻击者和LLM之间的交互。3) 执行攻击:使用生成的攻击数据对LLM进行攻击,评估其在不同场景下的攻击成功率。4) 分析结果:分析攻击结果,找出LLM的弱点,并提出相应的防御措施。RED QUEEN GUARD则通过对LLM进行微调,使其能够识别并拒绝执行潜在的恶意请求。

关键创新:RED QUEEN ATTACK的关键创新在于其多轮隐蔽攻击的特性。与传统的单轮攻击相比,RED QUEEN ATTACK能够更有效地模拟真实世界中的攻击场景,并能够发现LLM在多轮交互中的潜在漏洞。RED QUEEN GUARD的关键创新在于其简单有效的防御策略,通过对LLM进行对齐,使其能够识别并拒绝执行潜在的恶意请求,从而提高其安全性。

关键设计:RED QUEEN ATTACK的关键设计包括:1) 场景设计:设计多样化的攻击场景,覆盖不同的有害类别和攻击方式。2) 数据生成:使用自动化方法生成大量的攻击数据,保证数据的质量和多样性。3) 攻击评估:设计合理的攻击评估指标,评估LLM在不同场景下的攻击成功率。RED QUEEN GUARD的关键设计包括:1) 对齐数据:收集包含恶意请求和安全回复的对齐数据。2) 微调训练:使用对齐数据对LLM进行微调,使其能够识别并拒绝执行潜在的恶意请求。3) 评估指标:使用攻击成功率和模型性能等指标评估防御效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RED QUEEN ATTACK能够有效攻击包括GPT-4o和Llama3-70B在内的多个主流LLM,攻击成功率分别高达87.62%和75.4%。同时,实验还发现,模型越大,越容易受到RED QUEEN ATTACK的攻击。RED QUEEN GUARD能够有效降低攻击成功率至1%以下,同时保持模型在标准基准测试中的性能。

🎯 应用场景

该研究成果可应用于评估和提高大型语言模型在实际应用中的安全性,例如聊天机器人、智能助手等。通过RED QUEEN ATTACK,可以发现LLM在多轮对话中的潜在漏洞,并针对性地进行防御。RED QUEEN GUARD提供了一种简单有效的防御策略,可以提高LLM的安全性,降低其被恶意利用的风险。该研究对于保障LLM的安全可靠应用具有重要意义。

📄 摘要(原文)

The rapid progress of Large Language Models (LLMs) has opened up new opportunities across various domains and applications; yet it also presents challenges related to potential misuse. To mitigate such risks, red teaming has been employed as a proactive security measure to probe language models for harmful outputs via jailbreak attacks. However, current jailbreak attack approaches are single-turn with explicit malicious queries that do not fully capture the complexity of real-world interactions. In reality, users can engage in multi-turn interactions with LLM-based chat assistants, allowing them to conceal their true intentions in a more covert manner. To bridge this gap, we, first, propose a new jailbreak approach, RED QUEEN ATTACK. This method constructs a multi-turn scenario, concealing the malicious intent under the guise of preventing harm. We craft 40 scenarios that vary in turns and select 14 harmful categories to generate 56k multi-turn attack data points. We conduct comprehensive experiments on the RED QUEEN ATTACK with four representative LLM families of different sizes. Our experiments reveal that all LLMs are vulnerable to RED QUEEN ATTACK, reaching 87.62% attack success rate on GPT-4o and 75.4% on Llama3-70B. Further analysis reveals that larger models are more susceptible to the RED QUEEN ATTACK, with multi-turn structures and concealment strategies contributing to its success. To prioritize safety, we introduce a straightforward mitigation strategy called RED QUEEN GUARD, which aligns LLMs to effectively counter adversarial attacks. This approach reduces the attack success rate to below 1% while maintaining the model's performance across standard benchmarks. Full implementation and dataset are publicly accessible at https://github.com/kriti-hippo/red_queen.