Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs

作者: Shuang Ao, Yi Dong, Jinwei Hu, Sarvapali Ramchurn

分类: cs.LG, cs.AI

发布日期: 2025-06-21

备注: 13 pages, 3 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出SPLoRA，通过稳健的距离引导剪枝提升LoRA适配大模型的安全性对齐。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LoRA微调 安全对齐 模型剪枝 维度不敏感相似性 E-DIEM 安全风险降低

📋 核心要点

现有安全对齐方法难以捕捉复杂参数变化，导致安全性和效用之间的权衡不佳，这是当前面临的核心问题。
SPLoRA 通过剪枝选择性地移除削弱安全对齐的LoRA层，并引入维度不敏感的相似性度量E-DIEM来检测安全错位。
实验表明，SPLoRA 在保持或提高模型性能和可靠性的同时，显著降低了安全风险，优于现有技术。

📝 摘要（中文）

本文提出了一种名为Safe Pruning LoRA (SPLoRA) 的新型剪枝方法，旨在解决使用低秩适应 (LoRA) 微调大型语言模型 (LLM) 时，模型安全性对齐可能受损的问题。即使使用良性数据进行微调，也可能导致模型更容易产生有害输出。SPLoRA 通过选择性地移除削弱安全性对齐的 LoRA 层来提高安全性，同时保持模型性能。该方法的核心是 Empirical-DIEM (E-DIEM)，这是一种维度不敏感的相似性度量，能够有效检测 LoRA 适配模型中的安全性错位。在混合良性和恶意数据以及纯良性数据集上微调的 LLM 上进行了大量实验，评估了 SPLoRA 在效用、安全性和可靠性方面的表现。结果表明，SPLoRA 优于最先进的安全性对齐技术，显著降低了安全风险，同时保持或提高了模型性能和可靠性。此外，SPLoRA 降低了推理开销，使其成为部署更安全、更可靠的 LLM 的可扩展且高效的解决方案。

🔬 方法详解

问题定义：论文旨在解决LoRA微调大型语言模型时，模型安全性对齐容易受到破坏的问题。即使使用良性数据微调，模型也可能产生有害输出。现有安全对齐方法难以捕捉LoRA微调带来的复杂参数变化，导致安全性和模型效用之间的权衡不佳。

核心思路：论文的核心思路是通过剪枝来移除那些削弱模型安全对齐的LoRA层。通过识别并移除这些“有害”的LoRA层，可以在不显著降低模型性能的前提下，提升模型的安全性。这种选择性移除的关键在于准确识别哪些LoRA层对安全对齐产生了负面影响。

技术框架：SPLoRA 的整体框架包括以下几个主要步骤：1) 使用 LoRA 对 LLM 进行微调；2) 使用 Empirical-DIEM (E-DIEM) 评估每个 LoRA 层对安全对齐的影响；3) 根据 E-DIEM 的评估结果，对 LoRA 层进行剪枝，移除那些对安全对齐产生负面影响的层；4) 对剪枝后的模型进行评估，验证其安全性和性能。

关键创新：论文的关键创新在于提出了 Empirical-DIEM (E-DIEM)，这是一种维度不敏感的相似性度量，用于检测 LoRA 适配模型中的安全性错位。与传统的相似性度量方法不同，E-DIEM 能够有效地处理高维参数空间中的相似性计算，从而更准确地评估每个 LoRA 层对安全对齐的影响。这种维度不敏感性使得 E-DIEM 能够更好地捕捉 LoRA 微调带来的复杂参数变化。

关键设计：E-DIEM 的具体实现细节未知，但可以推测其设计目标是衡量 LoRA 层引入的参数变化对模型输出分布的影响，特别是对安全相关输出的影响。剪枝策略可能基于 E-DIEM 的评分，例如，移除 E-DIEM 评分最低的若干个 LoRA 层。具体的损失函数和网络结构细节未知，但可以推测其目标是最小化安全风险，同时最大化模型性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SPLoRA 在多个数据集上优于现有的安全对齐技术，能够在显著降低安全风险的同时，保持甚至提高模型的性能和可靠性。具体的数据提升幅度未知，但摘要强调了其超越现有技术的优越性。此外，SPLoRA 还降低了推理开销，使其更具实用价值。

🎯 应用场景

该研究成果可应用于各种需要安全可靠的大型语言模型部署场景，例如智能客服、内容生成、教育辅导等。通过 SPLoRA，可以有效降低模型产生有害或不当内容的风险，提升用户体验和信任度，并为LLM的广泛应用奠定基础。未来，该方法还可以扩展到其他类型的模型微调和安全对齐任务中。

📄 摘要（原文）

Fine-tuning Large Language Models (LLMs) with Low-Rank Adaptation (LoRA) enhances adaptability while reducing computational costs. However, fine-tuning can compromise safety alignment, even with benign data, increasing susceptibility to harmful outputs. Existing safety alignment methods struggle to capture complex parameter shifts, leading to suboptimal safety-utility trade-offs. To address this issue, we propose Safe Pruning LoRA (SPLoRA), a novel pruning-based approach that selectively removes LoRA layers that weaken safety alignment, improving safety while preserving performance. At its core, we introduce Empirical-DIEM (E-DIEM), a dimension-insensitive similarity metric that effectively detects safety misalignment in LoRA-adapted models. We conduct extensive experiments on LLMs fine-tuned with mixed of benign and malicious data, and purely benign datasets, evaluating SPLoRA across utility, safety, and reliability metrics. Results demonstrate that SPLoRA outperforms state-of-the-art safety alignment techniques, significantly reducing safety risks while maintaining or improving model performance and reliability. Additionally, SPLoRA reduces inference overhead, making it a scalable and efficient solution for deploying safer and more reliable LLMs. The code is available at https://github.com/AoShuang92/SPLoRA.

Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理