Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety
作者: Zihan Guan, Mengxuan Hu, Ronghang Zhu, Sheng Li, Anil Vullikanti
分类: cs.LG, cs.CL
发布日期: 2025-05-11 (更新: 2025-05-25)
备注: 26 pages, 13 figures
🔗 代码/项目: GITHUB
💡 一句话要点
利用良性数据中的异常样本微调可显著降低LLM安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全性 微调 异常检测 影响函数 红队测试 对抗攻击
📋 核心要点
- 现有研究表明,即使使用良性数据微调LLM也可能降低其安全性,但缺乏对良性数据集中哪些样本导致安全性下降的深入分析。
- 论文提出Self-Inf-N方法,从异常检测角度识别良性数据集中对安全性降低贡献最大的异常样本,并利用这些样本进行微调。
- 实验表明,仅使用100个异常样本微调即可显著降低多个主流LLM的安全性,且攻击具有很强的跨架构迁移性,现有防御措施难以有效抵御。
📝 摘要(中文)
最近的研究揭示了大型语言模型(LLM)微调阶段的一个令人不安的漏洞:即使在完全良性的数据集上进行微调,也可能导致LLM输出的有害性显著增加。基于这一发现,我们的红队研究通过开发更有效的攻击方式,将这一威胁推向了新的高度。具体来说,我们分析并识别良性数据集中对安全性降低贡献最大的样本,然后专门使用这些样本对LLM进行微调。我们从异常检测的角度来解决这个问题,并提出了Self-Inf-N,用于检测和提取用于微调的异常值。我们的研究结果表明,在良性数据集中,使用Self-Inf-N选择的100个异常样本对LLM进行微调,会严重损害LLM的安全性对齐。在七个主流LLM上进行的大量实验表明,我们的攻击在不同的架构中表现出很高的可迁移性,并且在实际场景中仍然有效。令人担忧的是,我们的结果表明,大多数现有的缓解策略都无法防御这种攻击,这突显了对更强大的对齐保护措施的迫切需求。代码可在https://github.com/GuanZihan/Benign-Samples-Matter获取。
🔬 方法详解
问题定义:论文旨在研究良性数据集中哪些样本会导致LLM安全性下降,并利用这些样本进行攻击。现有方法没有关注良性数据集中不同样本对安全性影响的差异,简单地使用整个良性数据集进行微调,可能导致攻击效果不佳。
核心思路:论文的核心思路是从良性数据集中识别出对LLM安全性影响最大的“异常”样本,并仅使用这些样本进行微调。这种方法假设良性数据集中存在一些样本,它们虽然表面上看起来无害,但实际上会诱导LLM产生有害输出。通过专注于这些样本,可以更有效地降低LLM的安全性。
技术框架:论文提出的Self-Inf-N方法主要包含以下几个阶段: 1. 嵌入提取:使用LLM提取良性数据集中每个样本的嵌入表示。 2. 异常检测:使用基于影响函数的异常检测方法(Self-Inf-N)来识别嵌入空间中的异常样本。影响函数用于衡量删除某个样本对模型预测的影响,影响越大,说明该样本越重要。 3. 微调:使用选定的异常样本对LLM进行微调。 4. 评估:使用红队测试评估微调后的LLM的安全性。
关键创新:论文的关键创新在于提出了Self-Inf-N方法,该方法能够有效地从良性数据集中识别出对LLM安全性影响最大的异常样本。与传统的异常检测方法不同,Self-Inf-N利用影响函数来衡量样本的重要性,从而更准确地识别出能够诱导LLM产生有害输出的样本。
关键设计:Self-Inf-N的关键设计在于使用影响函数来衡量样本的重要性。具体来说,论文使用以下公式计算样本的影响函数:Inf(z) = -H^{-1}∇L(θ, z)∇L(θ, z),其中H是Hessian矩阵,L是损失函数,θ是模型参数,z是样本。该公式衡量了删除样本z对模型参数θ的影响,影响越大,说明该样本越重要。论文还探索了不同的损失函数和Hessian矩阵近似方法,以提高Self-Inf-N的效率和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用Self-Inf-N选择的100个异常样本进行微调,可以显著降低多个主流LLM的安全性。例如,在某些模型上,攻击成功率提高了50%以上。此外,该攻击具有很强的跨架构迁移性,即使在不同的模型架构上进行攻击,也能取得类似的效果。更重要的是,现有的防御措施,如安全对齐技术,难以有效抵御这种攻击。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型的安全性。通过识别良性数据集中潜在的有害样本,可以更好地理解LLM的脆弱性,并开发更有效的防御策略。此外,该研究还可以帮助构建更安全的LLM微调流程,避免在不知情的情况下降低模型的安全性。
📄 摘要(原文)
Recent studies have uncovered a troubling vulnerability in the fine-tuning stage of large language models (LLMs): even fine-tuning on entirely benign datasets can lead to a significant increase in the harmfulness of LLM outputs. Building on this finding, our red teaming study takes this threat one step further by developing a more effective attack. Specifically, we analyze and identify samples within benign datasets that contribute most to safety degradation, then fine-tune LLMs exclusively on these samples. We approach this problem from an outlier detection perspective and propose Self-Inf-N, to detect and extract outliers for fine-tuning. Our findings reveal that fine-tuning LLMs on 100 outlier samples selected by Self-Inf-N in the benign datasets severely compromises LLM safety alignment. Extensive experiments across seven mainstream LLMs demonstrate that our attack exhibits high transferability across different architectures and remains effective in practical scenarios. Alarmingly, our results indicate that most existing mitigation strategies fail to defend against this attack, underscoring the urgent need for more robust alignment safeguards. Codes are available at https://github.com/GuanZihan/Benign-Samples-Matter.