Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs

📄 arXiv: 2506.18931v1 📥 PDF

作者: Shuang Ao, Yi Dong, Jinwei Hu, Sarvapali Ramchurn

分类: cs.LG, cs.AI

发布日期: 2025-06-21

备注: 13 pages, 3 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出SPLoRA,通过稳健的距离引导剪枝提升LoRA适配大模型的安全性对齐。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LoRA微调 安全对齐 模型剪枝 维度不敏感相似性 E-DIEM 安全风险降低

📋 核心要点

  1. 现有安全对齐方法难以捕捉复杂参数变化,导致安全性和效用之间的权衡不佳,这是当前面临的核心问题。
  2. SPLoRA 通过剪枝选择性地移除削弱安全对齐的LoRA层,并引入维度不敏感的相似性度量E-DIEM来检测安全错位。
  3. 实验表明,SPLoRA 在保持或提高模型性能和可靠性的同时,显著降低了安全风险,优于现有技术。

📝 摘要(中文)

本文提出了一种名为Safe Pruning LoRA (SPLoRA) 的新型剪枝方法,旨在解决使用低秩适应 (LoRA) 微调大型语言模型 (LLM) 时,模型安全性对齐可能受损的问题。即使使用良性数据进行微调,也可能导致模型更容易产生有害输出。SPLoRA 通过选择性地移除削弱安全性对齐的 LoRA 层来提高安全性,同时保持模型性能。该方法的核心是 Empirical-DIEM (E-DIEM),这是一种维度不敏感的相似性度量,能够有效检测 LoRA 适配模型中的安全性错位。在混合良性和恶意数据以及纯良性数据集上微调的 LLM 上进行了大量实验,评估了 SPLoRA 在效用、安全性和可靠性方面的表现。结果表明,SPLoRA 优于最先进的安全性对齐技术,显著降低了安全风险,同时保持或提高了模型性能和可靠性。此外,SPLoRA 降低了推理开销,使其成为部署更安全、更可靠的 LLM 的可扩展且高效的解决方案。

🔬 方法详解

问题定义:论文旨在解决LoRA微调大型语言模型时,模型安全性对齐容易受到破坏的问题。即使使用良性数据微调,模型也可能产生有害输出。现有安全对齐方法难以捕捉LoRA微调带来的复杂参数变化,导致安全性和模型效用之间的权衡不佳。

核心思路:论文的核心思路是通过剪枝来移除那些削弱模型安全对齐的LoRA层。通过识别并移除这些“有害”的LoRA层,可以在不显著降低模型性能的前提下,提升模型的安全性。这种选择性移除的关键在于准确识别哪些LoRA层对安全对齐产生了负面影响。

技术框架:SPLoRA 的整体框架包括以下几个主要步骤:1) 使用 LoRA 对 LLM 进行微调;2) 使用 Empirical-DIEM (E-DIEM) 评估每个 LoRA 层对安全对齐的影响;3) 根据 E-DIEM 的评估结果,对 LoRA 层进行剪枝,移除那些对安全对齐产生负面影响的层;4) 对剪枝后的模型进行评估,验证其安全性和性能。

关键创新:论文的关键创新在于提出了 Empirical-DIEM (E-DIEM),这是一种维度不敏感的相似性度量,用于检测 LoRA 适配模型中的安全性错位。与传统的相似性度量方法不同,E-DIEM 能够有效地处理高维参数空间中的相似性计算,从而更准确地评估每个 LoRA 层对安全对齐的影响。这种维度不敏感性使得 E-DIEM 能够更好地捕捉 LoRA 微调带来的复杂参数变化。

关键设计:E-DIEM 的具体实现细节未知,但可以推测其设计目标是衡量 LoRA 层引入的参数变化对模型输出分布的影响,特别是对安全相关输出的影响。剪枝策略可能基于 E-DIEM 的评分,例如,移除 E-DIEM 评分最低的若干个 LoRA 层。具体的损失函数和网络结构细节未知,但可以推测其目标是最小化安全风险,同时最大化模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SPLoRA 在多个数据集上优于现有的安全对齐技术,能够在显著降低安全风险的同时,保持甚至提高模型的性能和可靠性。具体的数据提升幅度未知,但摘要强调了其超越现有技术的优越性。此外,SPLoRA 还降低了推理开销,使其更具实用价值。

🎯 应用场景

该研究成果可应用于各种需要安全可靠的大型语言模型部署场景,例如智能客服、内容生成、教育辅导等。通过 SPLoRA,可以有效降低模型产生有害或不当内容的风险,提升用户体验和信任度,并为LLM的广泛应用奠定基础。未来,该方法还可以扩展到其他类型的模型微调和安全对齐任务中。

📄 摘要(原文)

Fine-tuning Large Language Models (LLMs) with Low-Rank Adaptation (LoRA) enhances adaptability while reducing computational costs. However, fine-tuning can compromise safety alignment, even with benign data, increasing susceptibility to harmful outputs. Existing safety alignment methods struggle to capture complex parameter shifts, leading to suboptimal safety-utility trade-offs. To address this issue, we propose Safe Pruning LoRA (SPLoRA), a novel pruning-based approach that selectively removes LoRA layers that weaken safety alignment, improving safety while preserving performance. At its core, we introduce Empirical-DIEM (E-DIEM), a dimension-insensitive similarity metric that effectively detects safety misalignment in LoRA-adapted models. We conduct extensive experiments on LLMs fine-tuned with mixed of benign and malicious data, and purely benign datasets, evaluating SPLoRA across utility, safety, and reliability metrics. Results demonstrate that SPLoRA outperforms state-of-the-art safety alignment techniques, significantly reducing safety risks while maintaining or improving model performance and reliability. Additionally, SPLoRA reduces inference overhead, making it a scalable and efficient solution for deploying safer and more reliable LLMs. The code is available at https://github.com/AoShuang92/SPLoRA.