From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning
作者: Xiao Wang, Yifei Zhang, YongKang Liu, Xiaocui Yang, Zihan Wang, Shi Feng, Daling Wang
分类: cs.AI, cs.LG
发布日期: 2026-05-06
备注: Accepted by ICML 2026
💡 一句话要点
提出SQSD方法,量化样本级安全退化风险,提升LLM微调安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全对齐 微调 参数动态 风险量化
📋 核心要点
- 现有方法忽略了LLM微调过程中参数的动态演变,无法有效解释安全退化现象。
- SQSD方法通过分析参数动态,量化每个样本对安全退化风险的贡献,从而识别高风险样本。
- 实验证明SQSD能有效量化样本级微调风险,并在不同模型架构和参数规模上具有良好的泛化性。
📝 摘要(中文)
大型语言模型(LLM)的安全对齐非常脆弱,即使在少量良性样本上进行微调也可能消除从数百万个偏好示例中学习到的安全行为。现有研究试图通过比较微调前后的参数和隐藏状态来解释这种现象,但忽略了微调期间的动态演变。本文通过分析参数动态揭示了安全退化的一个关键机制,即良性微调导致参数累积地向危险对齐方向漂移,逐渐破坏模型的安全性。这一发现表明,对这种漂移贡献越大的样本具有更大的微调风险。基于此,我们提出了一种样本级安全退化量化(SQSD)方法,该方法量化了每个训练样本对安全退化的影响。具体来说,SQSD通过测量其诱导的参数更新在危险和安全方向上的投影差异来计算样本的连续风险评分。在多个模型和数据集上的大量实验表明,SQSD有效地量化了样本级的微调风险,并在模型架构、参数规模和参数高效方法中表现出强大的可迁移性。
🔬 方法详解
问题定义:现有方法在解释LLM微调过程中的安全退化现象时,主要关注微调前后参数和隐藏状态的差异,忽略了微调过程中参数的动态变化。这导致无法准确评估每个训练样本对安全性的影响,难以识别导致安全退化的关键样本。
核心思路:本文的核心思路是,将LLM微调过程中的安全退化归因于参数向危险对齐方向的累积漂移。通过量化每个样本对这种漂移的贡献,可以评估该样本的安全风险。贡献越大,风险越高。
技术框架:SQSD方法主要包含以下几个阶段:1) 定义安全方向和危险方向:通常使用预训练的或已对齐的模型来确定这些方向。2) 计算每个样本引起的参数更新:通过计算微调前后参数的梯度差异来实现。3) 计算投影差异:将参数更新分别投影到安全方向和危险方向上,计算二者之差,作为该样本的风险评分。4) 连续风险评分:在微调的每个步骤或多个步骤后,重复上述过程,得到样本的连续风险评分。
关键创新:SQSD的关键创新在于,它将安全退化与参数动态联系起来,并提出了一种量化样本级安全风险的方法。与现有方法相比,SQSD能够更细粒度地评估每个样本的影响,从而更好地理解和控制LLM微调过程中的安全性。
关键设计:关键设计包括:1) 安全方向和危险方向的定义方式:可以使用不同的数据集或模型来定义这些方向,例如使用安全对齐的数据集训练的模型来定义安全方向,使用包含有害内容的数据集训练的模型来定义危险方向。2) 参数更新的计算方式:可以使用不同的优化器和学习率来影响参数更新的大小和方向。3) 投影差异的计算方式:可以使用不同的距离度量方法来计算投影差异,例如余弦相似度或欧氏距离。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SQSD方法能够有效量化样本级的微调风险,并在多个模型(包括不同架构和参数规模的模型)和数据集上表现出良好的可迁移性。该方法能够识别出导致安全退化的关键样本,并为安全微调提供指导。具体性能数据和对比基线信息未在摘要中提供,属于未知信息。
🎯 应用场景
SQSD方法可应用于LLM安全微调的多个环节,例如:在数据清洗阶段,识别并过滤高风险样本;在微调过程中,动态调整样本权重,降低高风险样本的影响;在模型评估阶段,评估微调后的模型安全性,并针对性地进行安全增强。该方法有助于提升LLM的安全性和可靠性,降低其被恶意利用的风险。
📄 摘要(原文)
Safety alignment of Large Language Models (LLMs) is extremely fragile, as fine-tuning on a small number of benign samples can erase safety behaviors learned from millions of preference examples. Existing studies attempt to explain this phenomenon by comparing parameters and hidden states before and after fine-tuning, but overlook their dynamic evolution during fine-tuning. In this paper, we uncover a critical mechanism underlying safety degradation by analyzing parameter dynamics, where benign fine-tuning causes parameters to cumulatively drift toward danger-aligned directions, progressively undermining the model's safety. This finding suggests that samples contributing more to this drift has greater fine-tuning risks. Based on this insight, we propose a method of Sample-Level Quantification of Safety Degradation (SQSD), which quantifies the influence of each training sample on safety degradation. Specifically, SQSD computes continuous risk scores to samples by measuring their induced parameter updates' projection difference between danger and safety directions. Extensive experiments across multiple models and datasets demonstrate that SQSD effectively quantifies sample-level fine-tuning risks and exhibits strong transferability across model architectures, parameter scales, and parameter-efficient methods.