Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning

作者: Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu

分类: cs.AI, cs.CR

发布日期: 2024-08-18 (更新: 2025-09-05)

备注: Rejected by AAAI25-AIA. Accepted by ICML25. Authors are thankful to the anonymous reviewers from both AAAI25-AIA and ICML25

🔗 代码/项目: GITHUB

💡 一句话要点

Antidote：针对有害微调，为大语言模型提供后微调安全对齐方案

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全对齐 有害微调 后微调 权重剪枝

📋 核心要点

现有防御方法在特定超参数下失效，如大学习率或多轮训练，无法有效抵抗有害微调攻击。
Antidote的核心思想是通过移除有害参数来恢复模型安全性，无需关注有害参数的形成过程。
Antidote通过一次性剪枝去除有害权重，实验表明能降低有害分数并保持下游任务准确性。

📝 摘要（中文）

安全对齐的大语言模型(LLM)容易受到有害微调攻击——少量有害数据混入微调数据集就可能破坏LLM的安全对齐。尽管已经提出了一些防御措施，但我们的评估表明，当选择某些特定的训练超参数时，现有的防御措施会失效——微调阶段较大的学习率或大量的训练轮次很容易使防御失效。为此，我们提出Antidote，一种后微调阶段的解决方案，它与微调阶段的训练超参数无关。Antidote依赖于这样一种理念，即通过移除有害参数，无论这些有害参数是如何在微调阶段形成的，都可以从有害行为中恢复有害模型。基于此理念，我们在有害微调后引入一个一次性剪枝阶段，以移除负责生成有害内容的有害权重。尽管其简单性令人惊讶，但经验结果表明，Antidote可以降低有害分数，同时保持下游任务的准确性。代码可在https://github.com/git-disl/Antidote获取。

🔬 方法详解

问题定义：论文旨在解决大语言模型在经过有害数据微调后，安全对齐被破坏的问题。现有的防御方法对微调过程中的超参数敏感，例如学习率和训练轮数，当这些超参数设置不当时，防御效果会显著下降。因此，需要一种与微调超参数无关的防御方法，以确保模型在各种微调设置下都能保持安全。

核心思路：Antidote的核心思路是，即使模型经过有害微调后表现出有害行为，但这些行为是由特定的有害权重引起的。通过识别并移除这些有害权重，可以使模型恢复到安全状态。这种方法的核心优势在于，它不需要了解有害权重是如何形成的，只需要在微调后进行一次性剪枝即可。

技术框架：Antidote是一个后微调阶段的解决方案，主要包含一个阶段：有害权重剪枝。在模型经过有害数据微调后，Antidote会识别并移除模型中负责生成有害内容的权重。这个过程只需要进行一次，不需要额外的训练或迭代。

关键创新：Antidote的关键创新在于其与微调超参数的无关性。现有的防御方法通常需要仔细调整超参数才能生效，而Antidote则可以在任何微调设置下工作。此外，Antidote采用一次性剪枝的方法，简单高效，易于实现。

关键设计：Antidote的关键设计在于如何识别和移除有害权重。论文中可能使用了某种权重重要性评估方法（具体方法未知）来确定哪些权重对生成有害内容贡献最大。然后，通过设置一个剪枝阈值，将重要性低于该阈值的权重移除。具体的剪枝策略和阈值选择可能是影响Antidote性能的关键因素。

🖼️ 关键图片

📊 实验亮点

Antidote在实验中展示了其有效性，能够在降低有害分数的同时，保持模型在下游任务上的准确性。具体性能数据（例如有害分数降低的百分比，下游任务准确率的损失）未知，但论文强调了Antidote的优势在于其简单性和与微调超参数的无关性，使其成为一种实用的防御方法。

🎯 应用场景

Antidote可应用于各种需要安全对齐的大语言模型，尤其是在模型需要进行微调以适应特定任务时。它可以作为一种通用的防御机制，防止恶意用户通过有害微调来破坏模型的安全性。该研究对于提升LLM在实际应用中的可靠性和安全性具有重要意义，有助于构建更值得信赖的AI系统。

📄 摘要（原文）

Safety aligned Large Language Models (LLMs) are vulnerable to harmful fine-tuning attacks -- a few harmful data mixed in the fine-tuning dataset can break the LLMs's safety alignment. While several defenses have been proposed, our evaluation shows that existing defenses fail \textit{when some specific training hyper-parameters are chosen} -- a large learning rate or a large number of training epochs in the fine-tuning stage can easily invalidate the defense. To this end, we propose Antidote, a post-fine-tuning stage solution, which remains \textbf{\textit{agnostic to the training hyper-parameters in the fine-tuning stage}}. Antidote relies on the philosophy that by removing the harmful parameters, the harmful model can be recovered from the harmful behaviors, regardless of how those harmful parameters are formed in the fine-tuning stage. With this philosophy, we introduce a one-shot pruning stage after harmful fine-tuning to remove the harmful weights that are responsible for the generation of harmful content. Despite its embarrassing simplicity, empirical results show that Antidote can reduce harmful score while maintaining accuracy on downstream tasks. Code is available at https://github.com/git-disl/Antidote.

Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理