One Step to the Side: Why Defenses Against Malicious Finetuning Fail Under Adaptive Adversaries
作者: Itay Zloczower, Eyal Lenga, Gilad Gressel, Yisroel Mirsky
分类: cs.CR, cs.AI, cs.LG
发布日期: 2026-05-14
备注: Under review
💡 一句话要点
揭示恶意微调防御的脆弱性:提出自适应攻击破解现有防御机制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 恶意微调 自适应攻击 防御机制 鲁棒性评估 大型语言模型
📋 核心要点
- 现有防御恶意微调的方法主要针对固定攻击设计,忽略了攻击者可以根据防御机制进行调整。
- 论文提出了一种统一的自适应攻击框架,能够有效绕过多种防御机制,揭示了现有防御的脆弱性。
- 实验结果表明,该自适应攻击能够成功破解15种最新的防御措施,证明现有方法无法提供真正的鲁棒性。
📝 摘要(中文)
模型提供商越来越多地发布开放权重或允许用户通过API微调基础模型。虽然这些模型在发布前都经过了安全对齐,但其安全措施通常可以通过对有害数据进行微调来移除。最近的防御措施旨在使模型对这种恶意微调具有鲁棒性,但它们主要针对没有考虑防御的固定攻击进行评估。我们表明,这些鲁棒性声明是不完整的。通过调查15种最新的防御措施,我们识别了几种防御机制,并表明它们共享一个共同的弱点:它们模糊或误导了通往有害行为的路径,而没有消除行为本身。然后,我们开发了一种统一的自适应攻击,可以打破所有防御机制。我们的结果表明,当前的方法不能提供强大的安全性;它们主要阻止了针对它们设计的攻击。我们希望我们为该领域提供的统一自适应对抗攻击将有助于未来的研究人员和从业人员在部署新防御措施之前对其进行压力测试。
🔬 方法详解
问题定义:论文旨在解决现有防御恶意微调的措施在面对自适应攻击时的失效问题。现有的防御方法通常只针对特定的攻击方式进行设计,缺乏泛化能力,当攻击者了解防御机制并进行针对性调整时,这些防御措施很容易被绕过。因此,如何设计一种能够抵御自适应攻击的鲁棒防御机制是本文要解决的核心问题。
核心思路:论文的核心思路是,现有的防御机制并没有真正消除模型中的有害行为,而是通过某种方式隐藏或转移了这些行为。因此,攻击者可以通过分析防御机制的弱点,设计自适应攻击来重新激活这些隐藏的有害行为。这种自适应攻击的核心在于,它不是盲目地进行攻击,而是根据防御机制的特点进行针对性的调整,从而达到绕过防御的目的。
技术框架:论文提出了一种统一的自适应攻击框架,该框架包含以下几个主要步骤:1) 分析目标防御机制的原理和弱点;2) 设计针对该防御机制的自适应攻击策略;3) 使用该策略生成对抗样本,并对模型进行微调;4) 评估微调后的模型是否成功绕过防御,并展现出有害行为。该框架可以应用于各种不同的防御机制,从而实现对现有防御措施的全面评估。
关键创新:论文最重要的技术创新点在于提出了统一的自适应攻击框架,该框架能够系统性地分析和破解各种不同的防御机制。与以往的固定攻击方法相比,该框架能够更好地模拟真实场景下的攻击行为,从而更准确地评估防御措施的鲁棒性。此外,该框架还能够帮助研究人员更好地理解防御机制的弱点,从而为设计更有效的防御方法提供指导。
关键设计:论文的关键设计在于如何根据不同的防御机制设计自适应攻击策略。具体的攻击策略会根据防御机制的特点进行调整,例如,如果防御机制是通过限制某些特定词语的使用来防止有害行为,那么攻击者可以通过使用同义词或近义词来绕过这些限制。此外,论文还使用了梯度信息来指导对抗样本的生成,从而提高攻击的效率和成功率。
🖼️ 关键图片
📊 实验亮点
论文通过实验证明,提出的自适应攻击能够成功破解15种最新的防御措施,表明现有方法无法提供真正的鲁棒性。实验结果表明,即使模型在发布前经过了安全对齐,攻击者仍然可以通过微调来移除其安全措施。这一发现强调了在模型开放权重或允许用户微调的场景下,加强安全防御的重要性。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型的安全性,特别是在模型开放权重或允许用户微调的场景下。通过使用自适应攻击框架,可以更全面地评估现有防御机制的鲁棒性,并为设计更有效的防御方法提供指导。这有助于防止恶意用户利用微调来移除模型的安全对齐,从而降低模型被用于传播有害信息或执行恶意任务的风险。
📄 摘要(原文)
Model providers increasingly release open weights or allow users to fine-tune foundation models through APIs. Although these models are safety-aligned before release, their safeguards can often be removed by fine-tuning on harmful data. Recent defenses aim to make models robust to such malicious fine-tuning, but they are largely evaluated only against fixed attacks that do not account for the defense. We show that these robustness claims are incomplete. Surveying 15 recent defenses, we identify several defense mechanisms and show that they share a single weakness: they obscure or misdirect the path to harmful behavior without removing the behavior itself. We then develop a unified adaptive attack that breaks defenses across all defense mechanisms. Our results show that current approaches do not provide robust security; they mainly stop the attacks they were designed against. We hope that our unified adaptive adversary for this domain will help future researchers and practitioners stress-test new defenses before deployment.