Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance
作者: Jiawen Zhang, Lipeng He, Kejia Chen, Jian Lou, Jian Liu, Xiaohu Yang, Ruoxi Jia
分类: cs.LG, cs.AI
发布日期: 2026-01-05
💡 一句话要点
仅用单样本修复微调LLM安全性,实现效用无损且成本极低的安全对齐。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 安全性对齐 微调 单样本学习 低秩结构
📋 核心要点
- 微调后的LLM安全性易受损,传统安全对齐方法计算成本高,且模型效用下降。
- 论文提出仅用单个安全样本即可恢复LLM安全性,无需大量数据和高昂计算。
- 实验证明该方法在多个安全对齐LLM上有效,且不牺牲模型效用,收敛速度快。
📝 摘要(中文)
微调后的安全对齐大语言模型(LLMs)的安全性可能会大打折扣。以往的方法需要大量的安全样本或校准集,这不仅在重新对齐期间产生巨大的计算开销,还会导致模型效用显著下降。与此相反,本文表明,仅使用一个安全示例就可以完全恢复安全性对齐,而不会牺牲效用,并且成本极低。值得注意的是,这种恢复是有效的,无论微调中使用的有害示例的数量或底层模型的大小如何,并且只需几个 epoch 即可实现收敛。此外,本文还揭示了安全梯度的低秩结构,这解释了为什么如此高效的校正成为可能。本文在五个安全对齐的 LLM 和多个数据集上验证了研究结果,证明了该方法的通用性。
🔬 方法详解
问题定义:论文旨在解决微调后的大语言模型(LLM)安全性下降的问题。现有方法,如使用大量安全样本进行重新对齐或校准,存在计算开销大、模型效用降低等痛点。这些方法在实际应用中成本高昂,且难以保证模型在安全性和实用性之间的平衡。
核心思路:论文的核心思路是利用单个安全样本,通过特定的优化方法,对微调后的LLM进行安全修复。作者发现,安全梯度的结构具有低秩特性,这意味着只需要少量的信息就可以有效地调整模型的安全行为。这种思路避免了大规模数据收集和训练,从而降低了成本,并尽可能地保留了模型的原有能力。
技术框架:论文提出的方法主要包含以下几个阶段:1) 确定需要修复的微调后的LLM;2) 准备一个安全示例,该示例能够触发模型的不安全行为;3) 计算安全梯度,即模型在安全示例上的梯度;4) 利用安全梯度对模型参数进行微调,以恢复其安全性。整个流程简单高效,易于实现。
关键创新:论文最重要的技术创新在于发现了安全梯度的低秩结构。这一发现解释了为什么仅用单个安全样本就能实现有效的安全修复。与传统方法需要大量数据不同,该方法利用了安全梯度的内在特性,实现了高效的参数调整。此外,该方法在保证安全性的同时,尽可能地保留了模型的原有能力,避免了模型效用的显著下降。
关键设计:论文的关键设计包括:1) 选择合适的安全示例,该示例应具有代表性,能够有效地触发模型的不安全行为;2) 使用合适的优化算法,如Adam,对模型参数进行微调;3) 设置合适的学习率和训练epoch数,以保证模型能够快速收敛,并避免过拟合。具体的参数设置需要根据不同的模型和数据集进行调整。
📊 实验亮点
实验结果表明,仅使用单个安全样本,该方法即可有效恢复微调后LLM的安全性,且模型效用几乎没有下降。在多个安全对齐的LLM和数据集上进行了验证,证明了该方法的通用性。此外,该方法收敛速度快,只需几个epoch即可完成安全修复,大大降低了计算成本。
🎯 应用场景
该研究成果可广泛应用于各种需要安全对齐的大语言模型,例如聊天机器人、智能助手、内容生成系统等。通过单样本修复,可以快速、低成本地提升这些模型的安全性,降低其产生有害或不当内容的风险。该方法还有助于在模型部署后,根据实际应用情况进行动态的安全调整,从而更好地适应不断变化的安全需求。
📄 摘要(原文)
Fine-tuning safety-aligned large language models (LLMs) can substantially compromise their safety. Previous approaches require many safety samples or calibration sets, which not only incur significant computational overhead during realignment but also lead to noticeable degradation in model utility. Contrary to this belief, we show that safety alignment can be fully recovered with only a single safety example, without sacrificing utility and at minimal cost. Remarkably, this recovery is effective regardless of the number of harmful examples used in fine-tuning or the size of the underlying model, and convergence is achieved within just a few epochs. Furthermore, we uncover the low-rank structure of the safety gradient, which explains why such efficient correction is possible. We validate our findings across five safety-aligned LLMs and multiple datasets, demonstrating the generality of our approach.