SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models

📄 arXiv: 2409.00055v6 📥 PDF

作者: Yang Cao, Zhao Song

分类: cs.LG, cs.CL

发布日期: 2024-08-21 (更新: 2025-05-29)


💡 一句话要点

提出SORSA,一种基于奇异值分解和正交正则化的高效参数微调方法,加速大语言模型收敛。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 奇异值分解 正交正则化 大语言模型 模型适配

📋 核心要点

  1. 现有参数高效微调方法在收敛速度和模型性能上存在局限性,需要更高效的微调策略。
  2. SORSA通过奇异值分解初始化可训练和冻结权重,并引入正交正则化降低条件数,加速优化。
  3. 实验表明,SORSA在GSM-8K等基准测试中优于LoRA等方法,展现出更快的收敛速度和更高的准确率。

📝 摘要(中文)

本文提出了一种新的参数高效微调(PEFT)方法,名为奇异值和正交正则化奇异向量适配(SORSA)。每个SORSA适配器由两个主要部分组成:可训练的主奇异权重$W_p = U_p ext{diag}(S_p) V^ op_p$和冻结的残差权重$W_r = U_r ext{diag}(S_r) V^ op_r$。这些部分通过对预训练权重执行奇异值分解(SVD)进行初始化。此外,我们实现并分析了一个正交正则化器,证明它可以降低$W_p$的条件数,从而提高优化效率。SORSA适配器可以在推理过程中合并,从而消除任何推理延迟。我们还介绍了一种通过执行SVD来分析参数变化的方法,并讨论和分析了SORSA在最小化SVD方面的改变的优越性。实验表明,SORSA比LoRA和PiSSA收敛速度更快。在GSM-8K基准测试中,使用SORSA适配的Llama 2 7B实现了56.03%的准确率,超过了LoRA(42.30%)和Full FT(49.05%)。我们得出结论,SORSA为参数高效微调提供了一个新的视角,并展示了卓越的性能。

🔬 方法详解

问题定义:论文旨在解决大语言模型微调过程中,如何在保证模型性能的同时,降低计算成本和存储需求的问题。现有的参数高效微调方法,如LoRA,在收敛速度和最终性能上仍有提升空间,并且可能引入额外的推理延迟。

核心思路:SORSA的核心思路是利用奇异值分解(SVD)将预训练模型的权重分解为可训练的主成分和冻结的残差成分,并对可训练部分施加正交正则化。通过这种方式,SORSA能够更有效地调整模型参数,加速收敛,并降低模型对原始权重的改变,从而保持模型的泛化能力。

技术框架:SORSA适配器包含两个主要模块:可训练的主奇异权重$W_p$和冻结的残差权重$W_r$。首先,对预训练模型的权重进行SVD分解。然后,将分解后的奇异值和奇异向量分配给$W_p$和$W_r$,其中$W_p$是可训练的,而$W_r$保持冻结。在训练过程中,只更新$W_p$的参数。推理时,可以将$W_p$合并回原始权重,从而避免额外的推理延迟。

关键创新:SORSA的关键创新在于以下几点:1) 使用SVD初始化适配器,更好地保留了预训练模型的知识;2) 引入正交正则化,降低了可训练权重的条件数,提高了优化效率;3) 适配器可以合并,避免了推理延迟。与LoRA等方法相比,SORSA在SVD层面最小化了对原始模型的改变。

关键设计:SORSA的关键设计包括:1) 使用SVD分解预训练权重,并选择合适的主成分进行训练;2) 设计正交正则化项,鼓励可训练权重的奇异向量保持正交性,从而降低条件数;3) 采用参数高效的训练策略,只更新少量参数,降低计算成本;4) 适配器合并策略,保证推理效率。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

SORSA在GSM-8K基准测试中表现出色,使用SORSA适配的Llama 2 7B模型达到了56.03%的准确率,显著优于LoRA(42.30%)和Full FT(49.05%)。实验还表明,SORSA比LoRA和PiSSA收敛速度更快,证明了其在参数高效微调方面的优越性。

🎯 应用场景

SORSA可应用于各种需要对大型语言模型进行微调的场景,例如自然语言处理、文本生成、机器翻译等。它尤其适用于资源受限的环境,如移动设备或边缘计算平台,因为它可以显著减少微调所需的计算资源和存储空间。此外,SORSA的快速收敛特性使其在需要快速迭代模型的场景中具有优势。

📄 摘要(原文)

In this paper, we propose Singular Values and Orthonormal Regularized Singular Vectors Adaptation, or SORSA, a novel parameter efficient fine-tuning (PEFT) method. Each SORSA adapter consists of two main parts: trainable principal singular weights $W_p = U_p \text{diag}(S_p) V^\top_p$, and frozen residual weights $W_r = U_r \text{diag}(S_r) V^\top_r$. These parts are initialized by performing singular value decomposition (SVD) on pre-trained weights. Moreover, we implement and analyze an orthonormal regularizer, which we prove could decrease the condition number of $W_p$ and make the optimization more efficient. SORSA adapters could be merged during inference, thus eliminating any inference latency. We also introduce a method to analyze the variation of the parameters by performing SVD and discuss and analyze SORSA's superiority in minimizing the alteration in the SVD aspect. After all, SORSA shows a faster convergence than LoRA and PiSSA in our experiments. On the GSM-8K benchmark, Llama 2 7B adapted using SORSA achieved 56.03\% accuracy, surpassing LoRA (42.30\%) and Full FT (49.05\%). We conclude that SORSA offers a new perspective on parameter-efficient fine-tuning, demonstrating remarkable performance.