Locking Down the Finetuned LLMs Safety
作者: Minjun Zhu, Linyi Yang, Yifan Wei, Ningyu Zhang, Yue Zhang
分类: cs.CL
发布日期: 2024-10-14
🔗 代码/项目: GITHUB
💡 一句话要点
提出SafetyLock,通过激活向量干预提升微调LLM的安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全对齐 微调 激活向量干预 Meta-SafetyLock
📋 核心要点
- 现有安全对齐方法难以有效应对微调LLM带来的安全风险,即使少量有害数据也可能导致模型产生有害行为。
- SafetyLock通过提取原始模型中的安全偏见方向(Meta-SafetyLock),并将其迁移到微调模型中,从而实现安全对齐。
- 实验表明,SafetyLock能显著降低微调模型的有害指令响应率,且具有高效性和可迁移性,无需额外计算成本。
📝 摘要(中文)
为了优化大型语言模型(LLMs)在特定下游任务上的性能,通常需要在额外的数据集上进行微调。然而,现有的安全对齐措施不足以减轻微调过程中的安全风险。令人担忧的是,仅用10个有害语句进行微调就可能导致模型遵从有害指令。我们提出SafetyLock,一种新颖的对齐干预方法,通过高效且可迁移的机制,在微调后保持强大的安全性。SafetyLock利用了我们发现的微调模型保留了与其基础模型相似的与安全相关的激活表示。这一发现使我们能够提取所谓的Meta-SafetyLock,这是一组安全偏见方向,代表原始模型中与安全响应相关的关键激活模式。然后,我们可以将这些方向普遍应用于微调模型,以增强其安全性。通过搜索多个token维度上的激活方向,SafetyLock实现了增强的鲁棒性和可迁移性。SafetyLock在不到0.01秒内重新对齐微调模型,而无需额外的计算成本。实验表明,SafetyLock可以将有害指令响应率从60%降低到低于1%。它在性能和效率上都超过了传统方法,为确保定制LLM的安全性提供了一种可扩展的、非侵入性的解决方案。我们对各种微调场景的分析证实了SafetyLock的鲁棒性,提倡将其集成到对齐LLM的安全协议中。
🔬 方法详解
问题定义:论文旨在解决微调大型语言模型(LLMs)后,模型安全性降低的问题。现有的安全对齐方法主要关注推理阶段,无法有效应对微调过程中引入的有害信息,导致模型更容易产生有害回复。即使使用少量有害数据进行微调,也可能显著降低模型的安全性。
核心思路:论文的核心思路是利用微调后的模型仍然保留了与原始模型相似的安全相关的激活表示这一发现。通过提取原始模型中与安全响应相关的关键激活模式(Meta-SafetyLock),并将其作为安全偏见方向迁移到微调模型中,从而在微调后重新对齐模型的安全性。
技术框架:SafetyLock的技术框架主要包含以下几个阶段:1) 安全偏见方向提取:分析原始模型在安全提示下的激活状态,提取Meta-SafetyLock,即代表安全响应的关键激活模式。2) 激活向量干预:将提取的Meta-SafetyLock应用于微调模型的激活向量,使其向安全方向偏离,从而抑制有害响应。3) 评估与验证:评估SafetyLock在不同微调场景下的性能,验证其鲁棒性和可迁移性。
关键创新:SafetyLock的关键创新在于:1) Meta-SafetyLock的概念:发现了微调模型保留原始模型安全相关激活表示的特性,并提出了Meta-SafetyLock的概念,为安全对齐提供了一种新的视角。2) 高效且可迁移的干预机制:通过激活向量干预,实现了高效且可迁移的安全对齐,无需重新训练或微调模型。
关键设计:SafetyLock的关键设计包括:1) 多token维度搜索:为了增强鲁棒性和可迁移性,SafetyLock在多个token维度上搜索激活方向。2) 无参数调整:SafetyLock无需额外的参数调整,即可直接应用于不同的微调模型,降低了使用门槛。3) 低计算成本:SafetyLock的激活向量干预过程非常高效,可以在不到0.01秒内完成,几乎不增加计算成本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SafetyLock能够显著降低微调模型的有害指令响应率,从60%降低到低于1%。与传统的安全对齐方法相比,SafetyLock在性能和效率上都表现出优势。SafetyLock在多种微调场景下都表现出良好的鲁棒性,证明了其具有广泛的应用潜力。
🎯 应用场景
SafetyLock可广泛应用于各种需要对大型语言模型进行微调的场景,例如定制化聊天机器人、特定领域的知识问答系统等。通过SafetyLock,可以有效防止微调后的模型产生有害或不当的回复,提高用户体验,降低安全风险。该研究为安全对齐LLM提供了一种可扩展、非侵入性的解决方案,具有重要的实际价值和未来影响。
📄 摘要(原文)
Fine-tuning large language models (LLMs) on additional datasets is often necessary to optimize them for specific downstream tasks. However, existing safety alignment measures, which restrict harmful behavior during inference, are insufficient to mitigate safety risks during fine-tuning. Alarmingly, fine-tuning with just 10 toxic sentences can make models comply with harmful instructions. We introduce SafetyLock, a novel alignment intervention method that maintains robust safety post-fine-tuning through efficient and transferable mechanisms. SafetyLock leverages our discovery that fine-tuned models retain similar safety-related activation representations to their base models. This insight enables us to extract what we term the Meta-SafetyLock, a set of safety bias directions representing key activation patterns associated with safe responses in the original model. We can then apply these directions universally to fine-tuned models to enhance their safety. By searching for activation directions across multiple token dimensions, SafetyLock achieves enhanced robustness and transferability. SafetyLock re-aligns fine-tuned models in under 0.01 seconds without additional computational cost. Our experiments demonstrate that SafetyLock can reduce the harmful instruction response rate from 60% to below 1% in toxic fine-tuned models. It surpasses traditional methods in both performance and efficiency, offering a scalable, non-invasive solution for ensuring the safety of customized LLMs. Our analysis across various fine-tuning scenarios confirms SafetyLock's robustness, advocating its integration into safety protocols for aligned LLMs. The code is released at https://github.com/zhu-minjun/SafetyLock.