SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models

作者: Yang Cao, Zhao Song

分类: cs.LG, cs.CL

发布日期: 2024-08-21 (更新: 2025-05-29)

💡 一句话要点

提出SORSA，一种基于奇异值分解和正交正则化的高效参数微调方法，加速大语言模型收敛。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 奇异值分解 正交正则化 大语言模型 模型适配

📋 核心要点

现有参数高效微调方法在收敛速度和模型性能上存在局限性，需要更高效的微调策略。
SORSA通过奇异值分解初始化可训练和冻结权重，并引入正交正则化降低条件数，加速优化。
实验表明，SORSA在GSM-8K等基准测试中优于LoRA等方法，展现出更快的收敛速度和更高的准确率。

📝 摘要（中文）

本文提出了一种新的参数高效微调（PEFT）方法，名为奇异值和正交正则化奇异向量适配（SORSA）。每个SORSA适配器由两个主要部分组成：可训练的主奇异权重$W_p = U_p ext{diag}(S_p) V^ op_p$和冻结的残差权重$W_r = U_r ext{diag}(S_r) V^ op_r$。这些部分通过对预训练权重执行奇异值分解（SVD）进行初始化。此外，我们实现并分析了一个正交正则化器，证明它可以降低$W_p$的条件数，从而提高优化效率。SORSA适配器可以在推理过程中合并，从而消除任何推理延迟。我们还介绍了一种通过执行SVD来分析参数变化的方法，并讨论和分析了SORSA在最小化SVD方面的改变的优越性。实验表明，SORSA比LoRA和PiSSA收敛速度更快。在GSM-8K基准测试中，使用SORSA适配的Llama 2 7B实现了56.03%的准确率，超过了LoRA（42.30%）和Full FT（49.05%）。我们得出结论，SORSA为参数高效微调提供了一个新的视角，并展示了卓越的性能。

🔬 方法详解

问题定义：论文旨在解决大语言模型微调过程中，如何在保证模型性能的同时，降低计算成本和存储需求的问题。现有的参数高效微调方法，如LoRA，在收敛速度和最终性能上仍有提升空间，并且可能引入额外的推理延迟。

核心思路：SORSA的核心思路是利用奇异值分解（SVD）将预训练模型的权重分解为可训练的主成分和冻结的残差成分，并对可训练部分施加正交正则化。通过这种方式，SORSA能够更有效地调整模型参数，加速收敛，并降低模型对原始权重的改变，从而保持模型的泛化能力。

技术框架：SORSA适配器包含两个主要模块：可训练的主奇异权重$W_p$和冻结的残差权重$W_r$。首先，对预训练模型的权重进行SVD分解。然后，将分解后的奇异值和奇异向量分配给$W_p$和$W_r$，其中$W_p$是可训练的，而$W_r$保持冻结。在训练过程中，只更新$W_p$的参数。推理时，可以将$W_p$合并回原始权重，从而避免额外的推理延迟。

关键创新：SORSA的关键创新在于以下几点：1) 使用SVD初始化适配器，更好地保留了预训练模型的知识；2) 引入正交正则化，降低了可训练权重的条件数，提高了优化效率；3) 适配器可以合并，避免了推理延迟。与LoRA等方法相比，SORSA在SVD层面最小化了对原始模型的改变。

关键设计：SORSA的关键设计包括：1) 使用SVD分解预训练权重，并选择合适的主成分进行训练；2) 设计正交正则化项，鼓励可训练权重的奇异向量保持正交性，从而降低条件数；3) 采用参数高效的训练策略，只更新少量参数，降低计算成本；4) 适配器合并策略，保证推理效率。

🖼️ 关键图片

📊 实验亮点

SORSA在GSM-8K基准测试中表现出色，使用SORSA适配的Llama 2 7B模型达到了56.03%的准确率，显著优于LoRA（42.30%）和Full FT（49.05%）。实验还表明，SORSA比LoRA和PiSSA收敛速度更快，证明了其在参数高效微调方面的优越性。

🎯 应用场景

SORSA可应用于各种需要对大型语言模型进行微调的场景，例如自然语言处理、文本生成、机器翻译等。它尤其适用于资源受限的环境，如移动设备或边缘计算平台，因为它可以显著减少微调所需的计算资源和存储空间。此外，SORSA的快速收敛特性使其在需要快速迭代模型的场景中具有优势。

📄 摘要（原文）

In this paper, we propose Singular Values and Orthonormal Regularized Singular Vectors Adaptation, or SORSA, a novel parameter efficient fine-tuning (PEFT) method. Each SORSA adapter consists of two main parts: trainable principal singular weights $W_p = U_p \text{diag}(S_p) V^\top_p$, and frozen residual weights $W_r = U_r \text{diag}(S_r) V^\top_r$. These parts are initialized by performing singular value decomposition (SVD) on pre-trained weights. Moreover, we implement and analyze an orthonormal regularizer, which we prove could decrease the condition number of $W_p$ and make the optimization more efficient. SORSA adapters could be merged during inference, thus eliminating any inference latency. We also introduce a method to analyze the variation of the parameters by performing SVD and discuss and analyze SORSA's superiority in minimizing the alteration in the SVD aspect. After all, SORSA shows a faster convergence than LoRA and PiSSA in our experiments. On the GSM-8K benchmark, Llama 2 7B adapted using SORSA achieved 56.03\% accuracy, surpassing LoRA (42.30\%) and Full FT (49.05\%). We conclude that SORSA offers a new perspective on parameter-efficient fine-tuning, demonstrating remarkable performance.

SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理