Proactive defense against LLM Jailbreak

📄 arXiv: 2510.05052v2 📥 PDF

作者: Weiliang Zhao, Jinjun Peng, Daniel Ben-Levi, Zhou Yu, Junfeng Yang

分类: cs.CR, cs.CL

发布日期: 2025-10-06 (更新: 2026-02-02)


💡 一句话要点

ProAct:一种针对LLM越狱攻击的主动防御框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM安全 越狱攻击 主动防御 对抗性攻击 虚假响应

📋 核心要点

  1. 现有LLM防御方法对迭代式越狱攻击效果不佳,难以应对攻击的不断演变。
  2. ProAct通过提供虚假越狱响应来误导攻击者,使其提前终止搜索,从而防御攻击。
  3. 实验表明,ProAct能显著降低攻击成功率高达94%,且不影响模型原有功能。

📝 摘要(中文)

大型语言模型(LLMs)的快速发展对安全对齐提出了更高要求,但这些模型仍然容易受到不断演变的对抗性攻击,包括迭代搜索成功查询的多轮越狱攻击。现有的防御方法主要为被动和静态的,通常无法处理这些迭代攻击。本文提出ProAct,一种新型的主动防御框架,旨在扰乱和误导这些迭代搜索越狱方法。其核心思想是故意误导这些越狱方法,使其认为模型已被“虚假响应”越狱。这些误导性响应为攻击者的内部优化循环提供错误的信号,导致对抗性搜索提前终止,从而有效地“越狱越狱者”。通过在最先进的LLM、越狱框架和安全基准上进行广泛的实验,证明该方法能够持续且显著地降低高达94%的攻击成功率,且不影响模型的效用。当与其他防御框架结合使用时,它进一步将最新攻击策略的成功率降低到0%。ProAct代表了一种正交的防御策略,可作为额外的保障措施,以增强LLM针对最有效的越狱攻击的安全性。

🔬 方法详解

问题定义:当前大型语言模型面临着日益复杂的越狱攻击,特别是多轮迭代式的攻击方式。现有的防御机制往往是被动的,无法有效应对攻击者通过不断试错来寻找漏洞的行为。这些防御措施通常是静态的,一旦攻击者找到了绕过的方法,防御效果就会大打折扣。

核心思路:ProAct的核心思想是“先发制人”,通过主动地向攻击者提供虚假的“越狱成功”信号,来扰乱其搜索过程。这种方法类似于“蜜罐”策略,让攻击者误以为已经找到了漏洞,从而停止进一步的探索。这样可以有效地阻止攻击者找到真正的漏洞,从而保护模型的安全。

技术框架:ProAct框架主要包含以下几个阶段:首先,模型接收到用户输入后,会判断该输入是否具有潜在的越狱风险。如果判断为高风险,ProAct会生成一个虚假的、看似越狱成功的响应。这个响应的设计需要足够逼真,能够欺骗攻击者的判断。然后,ProAct将这个虚假响应返回给用户,从而干扰攻击者的迭代搜索过程。整个过程对用户是透明的,不会影响正常的使用体验。

关键创新:ProAct的关键创新在于其主动防御的策略。与传统的被动防御不同,ProAct不是等待攻击发生后再进行响应,而是主动地干扰攻击者的搜索过程。这种方法可以有效地应对迭代式的攻击,因为它可以阻止攻击者找到真正的漏洞。此外,ProAct的设计具有通用性,可以与其他防御机制结合使用,进一步提高模型的安全性。

关键设计:ProAct的关键设计在于如何生成逼真的虚假响应。这需要对模型的输出进行仔细的分析,了解哪些类型的响应会被认为是“越狱成功”。一种方法是使用一个专门训练的生成模型,该模型可以根据用户的输入生成看似越狱成功的响应。另一种方法是使用一些预定义的模板,根据用户的输入进行填充。在实际应用中,可以根据具体情况选择不同的方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ProAct能够显著降低最先进的LLM越狱攻击的成功率,最高可达94%,且对模型的正常功能几乎没有影响。当ProAct与其他防御框架结合使用时,可以将最新攻击策略的成功率降低到0%。这些结果表明,ProAct是一种有效的、可扩展的LLM安全防御方法。

🎯 应用场景

ProAct可广泛应用于各种需要安全保障的大型语言模型应用场景,例如智能客服、内容生成、代码助手等。通过降低越狱攻击的成功率,ProAct可以有效防止模型被用于生成有害信息、泄露敏感数据或执行恶意代码,从而提高用户信任度和安全性,并降低潜在的法律和声誉风险。未来,ProAct可以与其他防御机制结合,构建更强大的LLM安全防护体系。

📄 摘要(原文)

The proliferation of powerful large language models (LLMs) has necessitated robust safety alignment, yet these models remain vulnerable to evolving adversarial attacks, including multi-turn jailbreaks that iteratively search for successful queries. Current defenses, which are primarily reactive and static, often fail to handle these iterative attacks. In this paper, we introduce ProAct, a novel proactive defense framework designed to disrupt and mislead these iterative search jailbreak methods. Our core idea is to intentionally mislead these jailbreak methods into thinking that the model has been jailbroken with "spurious responses". These misleading responses provide false signals to the attacker's internal optimization loop, causing the adversarial search to terminate prematurely and effectively jailbreaking the jailbreak. By conducting extensive experiments across state-of-the-art LLMs, jailbreaking frameworks, and safety benchmarks, we demonstrate that our method consistently and significantly reduces attack success rates by up to 94% without affecting utility. When combined with other defense fraeworks, it further reduces the latest attack strategies' success rate to 0%. ProActrepresents an orthogonal defense strategy that serves as an additional guardrail to enhance LLM safety against the most effective jailbreaking attacks.