CSULoRA: Closest Safe Update Low-Rank Adaptation
作者: Oleksandr Marchenko Breneur, Adelaide Danilov, Aria Nourbakhsh, Salima Lamsiyah
分类: cs.LG, cs.CL
发布日期: 2026-05-28
备注: 10 pages, 3 figure
💡 一句话要点
提出CSULoRA,通过最邻近安全更新实现LoRA的安全对齐微调。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低秩适配 LoRA 安全对齐 对抗性微调 语言模型 后处理方法 安全子空间
📋 核心要点
- 现有安全LoRA方法依赖硬干预,可能损失任务相关信息或需要额外调整。
- CSULoRA通过估计安全子空间,将LoRA更新分解为安全和不安全分量。
- CSULoRA在对抗性微调中显著降低攻击成功率,同时保留了LoRA的效用。
📝 摘要(中文)
低秩适配(LoRA)已成为大型语言模型参数高效微调的标准方法。然而,即使少量不安全或对抗性微调数据也可能显著削弱对齐模型的安全性。现有的安全LoRA方法通常依赖于投影、剪枝、阈值或额外的训练目标等硬干预。这些方法虽然可以抑制不安全的更新方向,但也可能移除任务相关的信息或需要额外的调整。我们提出了CSULoRA,一种通过最邻近安全更新估计来校正已训练LoRA适配器的后处理方法。CSULoRA从安全对齐模型及其对应的基础检查点之间的权重位移中估计一个安全对齐子空间。然后,它将每个LoRA更新分解为完全对齐、部分对齐和子空间外分量。CSULoRA没有丢弃估计的安全子空间外的分量,而是解决了一个闭式惩罚最小变化问题,该问题保留了完全对齐的分量,同时根据其相对能量平滑地衰减潜在的不安全方向。在对抗性微调实验中,CSULoRA显著降低了攻击成功率,同时保留了从标准LoRA微调获得的大部分效用增益。
🔬 方法详解
问题定义:现有LoRA微调方法容易受到不安全或对抗性数据的影响,导致模型安全性下降。现有的安全LoRA方法,如投影、剪枝等,虽然能抑制不安全更新,但可能损失任务相关信息,或者需要额外的超参数调整,影响模型性能。
核心思路:CSULoRA的核心思路是找到一个“最邻近”的安全更新,即在尽可能保留原始LoRA更新带来的任务性能提升的同时,最大限度地减小其不安全的影响。通过将LoRA更新分解到安全子空间和非安全子空间,并对非安全子空间进行衰减,从而实现安全对齐。
技术框架:CSULoRA是一个后处理方法,不需要额外的训练。其主要流程包括:1) 通过安全对齐模型和基础模型之间的权重差异,估计一个安全对齐子空间。2) 将LoRA更新分解为完全对齐、部分对齐和子空间外三个分量。3) 通过求解一个闭式惩罚最小变化问题,保留完全对齐分量,并根据相对能量衰减潜在的不安全方向。
关键创新:CSULoRA的关键创新在于其“最邻近安全更新”的思想,以及将LoRA更新分解为不同安全程度的分量。与直接丢弃不安全方向的方法不同,CSULoRA通过最小化修改幅度,尽可能保留原始LoRA更新带来的任务性能提升。
关键设计:CSULoRA的关键设计包括:1) 安全子空间的估计方法,通过计算安全对齐模型和基础模型之间的权重差异来确定。2) LoRA更新的分解方法,将更新分解为完全对齐、部分对齐和子空间外三个分量。3) 惩罚最小变化问题的设计,通过闭式解来平滑衰减不安全方向,同时保留安全方向的信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CSULoRA在对抗性微调场景下,能够显著降低攻击成功率,同时保留大部分由标准LoRA微调带来的效用增益。具体来说,CSULoRA在降低攻击成功率的同时,能够保持与原始LoRA微调接近的任务性能,优于其他安全LoRA方法。
🎯 应用场景
CSULoRA可应用于各种需要安全对齐的大型语言模型微调场景,例如对话系统、内容生成等。它可以有效提升模型在对抗性攻击下的鲁棒性,降低生成有害或不当内容的风险,从而提高模型的安全性和可靠性。该方法无需额外训练,易于部署,具有广泛的应用前景。
📄 摘要(原文)
Low-rank adaptation has become a standard method for parameter-efficient fine-tuning of large language models, but even small amounts of unsafe or adversarial fine-tuning data can substantially weaken the safety behavior of aligned models. Existing safety-preserving LoRA methods often rely on hard interventions such as projection, pruning, thresholding, or additional training objectives. While these methods can suppress unsafe update directions, they may also remove task-relevant information or require extra tuning. We introduce CSULoRA, a post-hoc method for correcting trained LoRA adapters through closest safe update estimation. CSULoRA estimates a safety-aligned subspace from the weight displacement between a safety-aligned model and its corresponding base checkpoint. It then decomposes each LoRA update into fully aligned, partially aligned, and off-subspace components. Instead of discarding components outside the estimated safety subspace, CSULoRA solves a closed-form penalized minimum-change problem that preserves the fully aligned component while smoothly attenuating potentially unsafe directions according to their relative energy. In adversarial fine-tuning experiments, CSULoRA substantially reduces attack success rate while preserving most of the utility gains obtained from standard LoRA fine-tuning.