Dual Decomposition of Weights and Singular Value Low Rank Adaptation

📄 arXiv: 2505.14367v2 📥 PDF

作者: Jialong Han, Si Zhang, Ke Zhang

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-05-21)


💡 一句话要点

DuDe:基于权重分解和奇异值分解的低秩自适应方法,提升LLM微调的稳定性和知识迁移效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 低秩自适应 奇异值分解 权重分解 知识迁移 大型语言模型 模型微调

📋 核心要点

  1. 现有LoRA方法因适配器参数的随机初始化,导致训练不稳定和知识迁移效率低。
  2. DuDe通过将权重矩阵分解为幅度和方向分量,并使用SVD进行初始化,解决上述问题。
  3. 实验表明,DuDe在MMLU和GSM8K数据集上表现出色,验证了其性能和鲁棒性。

📝 摘要(中文)

参数高效微调(PEFT)已成为将大型语言模型(LLM)适应下游任务的关键范式,其中低秩自适应(LoRA)是最广泛使用的方法之一。然而,现有的基于LoRA的方法存在两个根本限制:不稳定的训练动态和来自预训练模型的低效知识迁移,这都源于适配器参数的随机初始化。为了克服这些挑战,我们提出了DuDe,一种新颖的方法,它将权重矩阵分解为幅度和方向分量,并采用奇异值分解(SVD)进行有原则的初始化。我们的综合评估表明DuDe具有卓越的性能和鲁棒性,在MMLU上实现了高达48.35%的准确率,在GSM8K上实现了62.53%(±1.59)的准确率。我们的理论分析和经验验证共同表明,DuDe的分解策略增强了优化稳定性,更好地保留了预训练表示,特别是对于需要专门知识的特定领域任务。强大的经验性能和严谨的理论基础相结合,使DuDe成为LLM的PEFT方法的重要贡献。

🔬 方法详解

问题定义:现有基于LoRA的参数高效微调方法在训练大型语言模型时,由于适配器参数的随机初始化,导致训练过程不稳定,并且无法有效地将预训练模型的知识迁移到下游任务中。这限制了模型在特定领域任务中的表现,尤其是在需要专业知识的任务中。

核心思路:DuDe的核心思路是将权重矩阵分解为幅度和方向两个分量,并利用奇异值分解(SVD)对这些分量进行初始化。通过这种方式,DuDe旨在稳定训练过程,并更好地保留预训练模型的知识,从而提高微调的效率和性能。

技术框架:DuDe方法主要包含以下几个步骤:首先,对原始权重矩阵进行奇异值分解,得到奇异值矩阵和左右奇异向量矩阵。然后,将奇异值矩阵作为幅度分量,左右奇异向量矩阵作为方向分量。最后,使用这些分量初始化LoRA适配器的参数。在微调过程中,只更新适配器的参数,而保持原始预训练模型的参数不变。

关键创新:DuDe的关键创新在于使用奇异值分解来初始化LoRA适配器的参数,而不是像传统方法那样使用随机初始化。这种初始化方法能够更好地保留预训练模型的知识,并提高训练的稳定性。此外,将权重矩阵分解为幅度和方向分量,有助于更好地理解和控制适配器的行为。

关键设计:DuDe的关键设计包括:1) 使用SVD分解权重矩阵;2) 将奇异值作为幅度分量,奇异向量作为方向分量;3) 使用分解后的分量初始化LoRA适配器;4) 在微调过程中,只更新适配器参数,保持预训练模型参数不变。论文中可能还涉及学习率、batch size等超参数的设置,但摘要中未提及具体数值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DuDe在MMLU数据集上实现了高达48.35%的准确率,在GSM8K数据集上实现了62.53%(±1.59)的准确率。这些结果表明,DuDe在性能和鲁棒性方面均优于现有的LoRA方法。尤其是在GSM8K数据集上,DuDe的性能提升显著,表明其在需要专业知识的任务中具有优势。

🎯 应用场景

DuDe方法可应用于各种需要将大型语言模型快速适应到特定下游任务的场景,例如自然语言处理、机器翻译、文本摘要、问答系统等。特别是在领域知识密集型任务中,DuDe能够更有效地利用预训练模型的知识,提高模型性能,降低微调成本。该方法具有广泛的应用前景,能够加速LLM在各行业的落地。

📄 摘要(原文)

Parameter-Efficient Fine-Tuning (PEFT) has emerged as a critical paradigm for adapting Large Language Models (LLMs) to downstream tasks, among which Low-rank Adaptation (LoRA) represents one of the most widely adopted methodologies. However, existing LoRA-based approaches exhibit two fundamental limitations: unstable training dynamics and inefficient knowledge transfer from pre-trained models, both stemming from random initialization of adapter parameters. To overcome these challenges, we propose DuDe, a novel approach that decomposes weight matrices into magnitude and direction components, employing Singular Value Decomposition (SVD) for principled initialization. Our comprehensive evaluation demonstrates DuDe's superior performance and robustness, achieving up to 48.35\% accuracy on MMLU and 62.53\% ($\pm$ 1.59) accuracy on GSM8K. Our theoretical analysis and empirical validation collectively demonstrate that DuDe's decomposition strategy enhances optimization stability and better preserves pre-trained representations, particularly for domain-specific tasks requiring specialized knowledge. The combination of robust empirical performance and rigorous theoretical foundations establishes DuDe as a significant contribution to PEFT methodologies for LLMs.