Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks
作者: Kevin Kuo, Chhavi Yadav, Virginia Smith
分类: cs.LG, cs.CR
发布日期: 2026-05-26
备注: main body: 9 pages, 3 figures
💡 一句话要点
针对开源LLM防御机制,提出基于消融和预填充的简单攻击方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全防御 对抗攻击 消融攻击 预填充攻击 抗消融调整 开源模型
📋 核心要点
- 现有开源LLM防御主要依赖微调来学习有害行为的假设,忽略了预训练模型本身已具备的有害知识。
- 论文提出消融和预填充两种低成本攻击,无需梯度优化即可有效突破现有防御机制,揭示了更广泛的攻击面。
- 为缓解此漏洞,论文提出抗消融调整(ART),通过在训练中加入消融目标,有效降低了攻击成功率。
📝 摘要(中文)
最近用于保护开源大型语言模型(LLM)的防御措施旨在防止对抗性使用。这些防御措施的基础假设是,新的有害行为是通过微调学习的,而不是通过越狱模型引发的。然而,预训练的LLM已经在许多领域编码了大量的有害知识,这就提出了一个重要的问题:攻击者是否可以越狱受保护的模型,从而在完全不进行微调的情况下实现有害使用?在本文中,我们表明,开源防御机制容易受到更简单的策略的影响,尽管这些策略是众所周知的,但尚未针对这些防御机制进行系统评估。具体来说,我们评估了两种低成本攻击——消融和预填充——它们不依赖于基于梯度的优化。在三个有害性评估基准(BeaverTails、HarmBench和AdvBench)上,这些攻击将针对受保护的开源模型的攻击成功率从低于10%提高到16%-96%的范围。为了减轻这种漏洞,我们引入了抗消融调整(ART),它将基于消融的目标纳入训练中。ART可以分层到现有的防御措施上,并将消融、预填充及其组合的成功率降低10%-20%。这些发现表明,开源模型的攻击面比以前描述的更广,并且对保护防御措施的评估应包含更多样化的攻击策略,而不仅仅是对抗性微调。
🔬 方法详解
问题定义:现有开源LLM的防御机制主要关注通过微调引入的有害行为,而忽略了预训练模型本身已经具备的有害知识。这些防御机制假设攻击者需要通过微调来使模型产生有害输出,因此防御重点在于阻止或减轻微调带来的风险。然而,这种假设可能过于狭隘,忽略了攻击者可以直接利用预训练模型中已存在的有害知识。
核心思路:论文的核心思路是证明即使不进行微调,也可以通过简单的攻击手段(如消融和预填充)来突破现有的开源LLM防御机制。这表明,防御机制需要考虑更广泛的攻击面,而不仅仅是微调带来的风险。通过揭示现有防御机制的漏洞,论文旨在促使研究人员开发更全面、更有效的防御策略。
技术框架:论文主要包含以下几个阶段: 1. 攻击方法:提出两种低成本攻击方法:消融(Abliteration)和预填充(Prefilling)。消融是指移除输入中的某些token,以改变模型的输出;预填充是指在输入中添加特定的token,以诱导模型产生有害输出。 2. 评估基准:使用三个有害性评估基准(BeaverTails、HarmBench和AdvBench)来评估攻击的有效性。 3. 防御方法:提出抗消融调整(ART),通过在训练中加入消融目标,使模型对消融攻击更具鲁棒性。 4. 实验评估:评估攻击方法在受保护模型上的效果,以及ART防御方法的有效性。
关键创新:论文最重要的技术创新点在于证明了即使不进行微调,也可以通过简单的攻击手段突破现有的开源LLM防御机制。这挑战了现有防御机制的假设,并揭示了更广泛的攻击面。此外,提出的抗消融调整(ART)是一种简单有效的防御方法,可以提高模型对消融攻击的鲁棒性。
关键设计: * 消融攻击:通过随机或有选择性地移除输入中的token来实现。关键在于选择哪些token进行移除,以及移除的比例。 * 预填充攻击:通过在输入中添加特定的token来实现。关键在于选择哪些token进行添加,以及添加的位置。 * 抗消融调整(ART):在训练过程中,对输入进行消融处理,并要求模型能够恢复原始输出。这可以通过在损失函数中加入一个正则化项来实现,该正则化项惩罚模型在消融输入上的输出与原始输出之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,消融和预填充攻击可以将针对受保护的开源模型的攻击成功率从低于10%提高到16%-96%。引入抗消融调整(ART)后,消融、预填充及其组合的攻击成功率降低了10%-20%,证明了ART的有效性。
🎯 应用场景
该研究成果可应用于提升开源LLM的安全性,帮助开发者更好地评估和防御潜在的攻击。通过更全面地了解攻击面,可以设计出更鲁棒的防御机制,从而降低LLM被恶意利用的风险,促进LLM在安全可靠的环境中应用。
📄 摘要(原文)
Recent defenses for safeguarding open-weight large language models (LLMs) are intended to prevent adversarial usage. Underlying these defenses is an assumption that new harmful behavior is learned through fine-tuning rather than elicited by jailbreaking the model. Yet, pretrained LLMs already encode substantial harmful knowledge across many domains, which raises an important question: can an adversary jailbreak safeguarded models, to achieve harmful usage without fine-tuning at all? In this paper, we show that open-weight safeguards are susceptible to simpler strategies that, despite being well known, have not been systematically evaluated against these safeguards. Specifically, we evaluate two low-cost attacks--abliteration and prefilling--that do not rely on gradient-based optimization. Across three harmfulness evaluation benchmarks (BeaverTails, HarmBench, and AdvBench), these attacks increase attack success rates against safeguarded open-weight models from below 10\% to a range of 16%-96%. To mitigate this vulnerability, we introduce abliteration-resistant tuning (ART), which incorporates an abliteration-based objective into training. ART can be layered onto existing defenses and reduces the success rates of abliteration, prefilling, and their combination by 10%-20%. These findings indicate that the attack surface for open-weight models is broader than previously characterized, and that evaluations of safeguarding defenses should incorporate a more diverse set of attack strategies beyond adversarial fine-tuning.