Safety Layers in Aligned Large Language Models: The Key to LLM Security

📄 arXiv: 2408.17003v5 📥 PDF

作者: Shen Li, Liuyi Yao, Lan Zhang, Yaliang Li

分类: cs.CR, cs.AI

发布日期: 2024-08-30 (更新: 2025-04-07)

备注: Accepted by ICLR 2025. The code is available at https://github.com/listen0425/Safety-Layers


💡 一句话要点

揭示大语言模型安全层机制,提出安全偏参数微调方法SPPFT

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全性 微调 安全层 偏参数微调

📋 核心要点

  1. 现有对齐的LLM安全性依赖于内部参数,但其具体机制尚不明确,且易受微调攻击导致安全性下降。
  2. 论文通过分析模型内部层,识别出对区分恶意查询至关重要的“安全层”,并提出SPPFT微调方法。
  3. 实验表明,SPPFT能在微调过程中有效保护LLM的安全性,同时保持性能并降低计算成本。

📝 摘要(中文)

对齐的大语言模型(LLM)具有安全性,能够识别并拒绝回答恶意问题。然而,内部参数在维持这种安全性方面的作用尚不清楚,并且这些模型在受到微调攻击时可能容易出现安全性下降。为了解决这些挑战,本文揭示了对齐LLM安全性的参数级别机制,识别出模型中间的一小组连续层,这些层对于区分恶意查询和正常查询至关重要,称为“安全层”。我们首先通过分析模型内部层中输入向量的变化来确认这些安全层的存在。此外,我们利用过度拒绝现象和参数缩放分析来精确定位安全层。在此基础上,我们提出了一种新的微调方法,即安全偏参数微调(SPPFT),该方法在微调期间固定安全层的梯度,以解决安全性下降的问题。实验表明,与完全微调相比,所提出的方法可以在保持性能的同时显著保持LLM安全性并减少计算资源。

🔬 方法详解

问题定义:论文旨在解决对齐的大语言模型(LLM)在微调过程中出现的安全性退化问题。现有方法,如全参数微调,虽然可以提升模型在特定任务上的性能,但往往会降低模型对恶意查询的防御能力,导致模型更容易被攻击。因此,如何既能保持或提升模型性能,又能维持其安全性,是一个重要的挑战。

核心思路:论文的核心思路是识别并保护LLM中负责安全性的关键层,即“安全层”。通过分析模型内部各层对输入向量的处理,发现模型中间的某些连续层对区分恶意查询和正常查询起着关键作用。因此,在微调过程中,固定这些安全层的参数,避免其受到恶意数据的影响,从而维持模型的安全性。

技术框架:论文的技术框架主要包括三个阶段:1) 安全层识别:通过分析模型内部层中输入向量的变化,并结合过度拒绝现象和参数缩放分析,精确定位安全层的位置。2) 安全偏参数微调(SPPFT):在微调过程中,固定安全层的梯度,只更新其他层的参数。3) 实验验证:通过在多个数据集上进行实验,验证SPPFT方法在保持模型性能的同时,能够有效提升模型的安全性。

关键创新:论文最重要的技术创新点在于识别并利用了LLM中的“安全层”这一概念。与传统的全参数微调方法不同,SPPFT方法只更新部分参数,避免了对安全层的干扰,从而在微调过程中更好地保护了模型的安全性。

关键设计:SPPFT的关键设计在于如何精确定位安全层以及如何在微调过程中固定安全层的梯度。安全层的定位依赖于对模型内部各层输入向量变化的分析,以及对过度拒绝现象和参数缩放的观察。在微调过程中,通过设置安全层的梯度为零,可以有效地阻止其参数的更新。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与全参数微调相比,SPPFT方法能够在保持模型性能的同时,显著提升模型的安全性。具体而言,SPPFT在安全性指标上取得了显著提升,同时在性能指标上与全参数微调相当甚至略有提升,并且减少了计算资源消耗。这些结果验证了SPPFT方法在实际应用中的有效性。

🎯 应用场景

该研究成果可应用于各种需要安全保障的大语言模型应用场景,例如智能客服、内容生成、代码生成等。通过SPPFT方法,可以在微调模型以适应特定任务的同时,有效防止模型被恶意利用,从而提高LLM的可靠性和安全性,降低安全风险。

📄 摘要(原文)

Aligned LLMs are secure, capable of recognizing and refusing to answer malicious questions. However, the role of internal parameters in maintaining such security is not well understood yet, further these models can be vulnerable to security degradation when subjected to fine-tuning attacks. To address these challenges, our work uncovers the mechanism behind security in aligned LLMs at the parameter level, identifying a small set of contiguous layers in the middle of the model that are crucial for distinguishing malicious queries from normal ones, referred to as ``safety layers". We first confirm the existence of these safety layers by analyzing variations in input vectors within the model's internal layers. Additionally, we leverage the over-rejection phenomenon and parameters scaling analysis to precisely locate the safety layers. Building on these findings, we propose a novel fine-tuning approach, Safely Partial-Parameter Fine-Tuning (SPPFT), that fixes the gradient of the safety layers during fine-tuning to address the security degradation. Our experiments demonstrate that the proposed approach can significantly preserve LLM security while maintaining performance and reducing computational resources compared to full fine-tuning.