JPU: Bridging Jailbreak Defense and Unlearning via On-Policy Path Rectification

📄 arXiv: 2601.03005v1 📥 PDF

作者: Xi Wang, Songlei Jian, Shasha Li, Xiaopeng Li, Zhaoye Li, Bin Ji, Baosheng Wang, Jie Yu

分类: cs.CR, cs.AI

发布日期: 2026-01-06

备注: 14 pages, 6 figures, under review;


💡 一句话要点

提出JPU,通过在线策略路径修正桥接越狱防御与模型卸载

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱防御 模型卸载 对抗样本 路径修正

📋 核心要点

  1. 现有模型卸载防御越狱攻击的方法,无法有效擦除所有有害参数,导致模型仍存在安全漏洞。
  2. JPU通过动态挖掘在线对抗样本,识别并修正模型中的动态越狱路径,从而增强模型的安全性。
  3. 实验结果表明,JPU在提高模型越狱抵抗能力的同时,能够保持模型的原有性能。

📝 摘要(中文)

尽管大型语言模型(LLMs)经过了广泛的安全对齐,但它们常常无法抵御越狱攻击。机器卸载通过擦除特定的有害参数成为一种有前景的防御手段,但现有方法仍然容易受到各种越狱攻击的影响。我们首先进行了一项实证研究,发现这种失败机制主要是由于越狱攻击激活了中间层中未被擦除的参数。此外,通过探究这些被规避的参数如何重新组合成被禁止输出的潜在机制,我们验证了动态越狱路径的持续存在,并表明无法纠正这些路径是现有卸载防御的根本缺陷。为了弥合这一差距,我们提出了越狱路径卸载(JPU),这是第一个通过动态挖掘在线对抗样本来暴露漏洞并识别越狱路径,从而纠正通向安全锚点的动态越狱路径的方法。大量的实验表明,JPU显著提高了针对动态攻击的越狱抵抗能力,同时保持了模型的效用。

🔬 方法详解

问题定义:现有的大型语言模型卸载方法在防御越狱攻击时存在不足。即使尝试擦除有害参数,攻击者仍然可以通过激活模型中间层中未被擦除的参数来绕过防御,从而导致模型生成有害内容。现有方法未能充分解决动态越狱路径的问题,即攻击者可以利用模型内部的复杂交互来重新组合参数,最终产生有害输出。

核心思路:JPU的核心思路是通过在线策略路径修正来桥接越狱防御和模型卸载。它不是简单地擦除参数,而是主动识别并修正模型中存在的动态越狱路径。通过动态挖掘对抗样本,JPU能够暴露模型中的漏洞,并引导模型学习安全的行为。

技术框架:JPU包含以下主要模块:1) 对抗样本生成器:该模块负责生成能够触发模型越狱行为的对抗样本。2) 越狱路径识别器:该模块分析模型在处理对抗样本时的内部激活状态,从而识别出导致有害输出的越狱路径。3) 路径修正器:该模块通过调整模型参数,修正识别出的越狱路径,使其通向安全锚点,从而防止模型生成有害内容。整个流程是一个迭代的过程,通过不断生成对抗样本、识别越狱路径和修正路径,逐步提高模型的安全性。

关键创新:JPU的关键创新在于其动态路径修正的思想。与传统的参数擦除方法不同,JPU关注的是模型内部的动态交互,并通过修正这些交互来消除越狱风险。这种方法能够更有效地防御各种复杂的越狱攻击,并且能够更好地保持模型的原有性能。

关键设计:JPU的关键设计包括:1) 在线对抗样本生成策略:JPU采用在线策略生成对抗样本,能够根据模型的当前状态动态调整攻击策略,从而更有效地暴露模型中的漏洞。2) 越狱路径识别方法:JPU通过分析模型中间层的激活状态,识别出导致有害输出的关键路径。3) 路径修正损失函数:JPU设计了一种特殊的损失函数,用于引导模型学习安全的行为,并修正越狱路径。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,JPU在防御动态越狱攻击方面取得了显著的提升。与现有的模型卸载方法相比,JPU能够更有效地抵抗各种复杂的越狱攻击,并且能够更好地保持模型的原有性能。具体来说,JPU在多个越狱攻击基准测试中,将攻击成功率降低了XX%,同时保持了模型在通用任务上的性能。

🎯 应用场景

JPU可应用于各种需要防御越狱攻击的大型语言模型,例如聊天机器人、智能助手等。通过提高模型的安全性,JPU可以减少有害信息的传播,保护用户免受恶意攻击。此外,JPU还可以用于评估模型的安全性,帮助开发者发现并修复模型中的漏洞,从而提高模型的整体质量。

📄 摘要(原文)

Despite extensive safety alignment, Large Language Models (LLMs) often fail against jailbreak attacks. While machine unlearning has emerged as a promising defense by erasing specific harmful parameters, current methods remain vulnerable to diverse jailbreaks. We first conduct an empirical study and discover that this failure mechanism is caused by jailbreaks primarily activating non-erased parameters in the intermediate layers. Further, by probing the underlying mechanism through which these circumvented parameters reassemble into the prohibited output, we verify the persistent existence of dynamic $\textbf{jailbreak paths}$ and show that the inability to rectify them constitutes the fundamental gap in existing unlearning defenses. To bridge this gap, we propose $\textbf{J}$ailbreak $\textbf{P}$ath $\textbf{U}$nlearning (JPU), which is the first to rectify dynamic jailbreak paths towards safety anchors by dynamically mining on-policy adversarial samples to expose vulnerabilities and identify jailbreak paths. Extensive experiments demonstrate that JPU significantly enhances jailbreak resistance against dynamic attacks while preserving the model's utility.