AntiDote: Bi-level Adversarial Training for Tamper-Resistant LLMs

📄 arXiv: 2509.08000v1 📥 PDF

作者: Debdeep Sanyal, Manodeep Ray, Murari Mandal

分类: cs.CL

发布日期: 2025-09-06

备注: 19 pages


💡 一句话要点

AntiDote:面向抗篡改大语言模型的双层对抗训练方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 对抗训练 抗篡改 双层优化 低秩适应 安全性 红队攻击

📋 核心要点

  1. 现有LLM安全措施难以抵抗恶意攻击者通过微调消除安全防护,尤其是在攻击者拥有模型全部权重和架构访问权限时。
  2. AntiDote通过双层优化,训练LLM抵抗篡改,利用对抗超网络生成恶意LoRA权重,并训练防御模型消除其影响。
  3. 实验表明,AntiDote在抵抗对抗攻击方面比现有方法更鲁棒,提升高达27.4%,且对模型通用能力影响极小,性能下降小于0.5%。

📝 摘要(中文)

开放权重的大语言模型(LLM)的发布,在推进可访问研究和防止恶意使用(如引发有害内容的恶意微调)之间造成了一种紧张关系。现有的安全措施难以在保持LLM通用能力的同时,抵抗能够完全访问模型权重和架构的坚定对抗者,这些对抗者可以使用全参数微调来消除现有的安全措施。为了解决这个问题,我们引入了AntiDote,这是一种双层优化程序,用于训练LLM以抵抗这种篡改。AntiDote涉及一个辅助对抗超网络,该网络学习生成恶意的低秩适应(LoRA)权重,这些权重以防御者模型的内部激活为条件。然后,训练防御者LLM的目标是消除这些对抗性权重添加的影响,迫使其保持其安全对齐。我们针对包含52个红队攻击的多样化套件验证了这种方法,包括越狱提示、潜在空间操纵和直接权重空间攻击。与抗篡改和非学习基线相比,AntiDote对抗对抗性攻击的鲁棒性提高了27.4%。至关重要的是,这种鲁棒性是在效用方面以最小的权衡实现的,在包括MMLU、HellaSwag和GSM8K在内的能力基准测试中,性能下降不到0.5%。我们的工作为构建开放权重模型提供了一种实用且计算高效的方法,其中安全性是一种更完整和更具弹性的属性。

🔬 方法详解

问题定义:论文旨在解决开放权重LLM容易被恶意篡改的问题。现有的安全措施无法有效抵抗拥有模型全部访问权限的攻击者,他们可以通过微调来移除或绕过安全机制,导致模型产生有害内容。这种攻击方式的痛点在于,攻击者可以针对性地修改模型权重,而现有的防御方法难以在不牺牲模型通用能力的前提下进行有效防御。

核心思路:论文的核心思路是采用双层对抗训练,模拟攻击者和防御者之间的博弈。攻击者(通过超网络)学习如何生成能够破坏模型安全性的恶意权重,而防御者则学习如何抵抗这些恶意权重的影响,从而提高模型的抗篡改能力。这种对抗训练迫使模型学习更鲁棒的特征表示,使其对权重扰动更加不敏感。

技术框架:AntiDote的整体框架包含两个主要部分:防御者LLM和一个辅助对抗超网络。首先,对抗超网络以防御者LLM的内部激活为条件,生成恶意的LoRA权重。然后,将这些恶意权重添加到防御者LLM中,模拟攻击。接下来,训练防御者LLM,使其能够最小化在受到攻击后的性能损失,从而提高其抗篡改能力。这个过程通过双层优化来实现,其中对抗超网络的目标是最大化防御者的损失,而防御者的目标是最小化其自身的损失。

关键创新:AntiDote的关键创新在于使用对抗超网络来生成恶意的LoRA权重。与传统的对抗训练方法不同,AntiDote不是直接修改输入数据,而是修改模型的权重,从而模拟更真实的攻击场景。此外,使用LoRA权重可以减少计算成本,并允许在不影响模型通用能力的前提下进行微调。

关键设计:AntiDote的关键设计包括:1) 对抗超网络的结构,需要能够有效地生成恶意的LoRA权重;2) 损失函数的设计,需要能够有效地衡量模型在受到攻击后的性能损失;3) 双层优化的算法,需要能够有效地平衡攻击者和防御者之间的目标。论文中具体使用了交叉熵损失函数来衡量模型在分类任务上的性能损失,并使用Adam优化器来训练对抗超网络和防御者LLM。LoRA的秩(rank)是一个重要的超参数,需要根据具体任务进行调整。

📊 实验亮点

实验结果表明,AntiDote在抵抗52种红队攻击(包括越狱提示、潜在空间操纵和直接权重空间攻击)方面,比抗篡改和非学习基线方法提高了高达27.4%的鲁棒性。同时,AntiDote对模型通用能力的损害极小,在MMLU、HellaSwag和GSM8K等基准测试中,性能下降小于0.5%。这些结果表明,AntiDote是一种实用且有效的抗篡改方法。

🎯 应用场景

AntiDote技术可应用于各种需要防止恶意篡改的大语言模型,例如用于内容审核、代码生成、智能客服等场景的模型。通过提高模型的抗篡改能力,可以降低模型被用于生成有害信息或执行恶意任务的风险,从而保障用户安全和社会稳定。该技术还有助于推动安全可靠的开源LLM生态发展。

📄 摘要(原文)

The release of open-weight large language models (LLMs) creates a tension between advancing accessible research and preventing misuse, such as malicious fine-tuning to elicit harmful content. Current safety measures struggle to preserve the general capabilities of the LLM while resisting a determined adversary with full access to the model's weights and architecture, who can use full-parameter fine-tuning to erase existing safeguards. To address this, we introduce AntiDote, a bi-level optimization procedure for training LLMs to be resistant to such tampering. AntiDote involves an auxiliary adversary hypernetwork that learns to generate malicious Low-Rank Adaptation (LoRA) weights conditioned on the defender model's internal activations. The defender LLM is then trained with an objective to nullify the effect of these adversarial weight additions, forcing it to maintain its safety alignment. We validate this approach against a diverse suite of 52 red-teaming attacks, including jailbreak prompting, latent space manipulation, and direct weight-space attacks. AntiDote is upto 27.4\% more robust against adversarial attacks compared to both tamper-resistance and unlearning baselines. Crucially, this robustness is achieved with a minimal trade-off in utility, incurring a performance degradation of upto less than 0.5\% across capability benchmarks including MMLU, HellaSwag, and GSM8K. Our work offers a practical and compute efficient methodology for building open-weight models where safety is a more integral and resilient property.