LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization

📄 arXiv: 2502.14538v3 📥 PDF

作者: Yupeng Chang, Chenlu Guo, Yi Chang, Yuan Wu

分类: cs.CL

发布日期: 2025-02-20 (更新: 2025-09-26)


💡 一句话要点

提出LoRA-MGPO,通过动量引导扰动优化缓解低秩自适应中的双重下降问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩自适应 参数高效微调 双重下降 动量引导优化 大型语言模型 自然语言处理 模型优化

📋 核心要点

  1. LoRA在秩增大时出现双重下降,导致训练损失发散、收敛缓慢和泛化能力下降。
  2. LoRA-MGPO利用动量引导扰动优化,稳定训练过程,避免陷入尖锐局部最小值。
  3. 实验表明,LoRA-MGPO在多个NLP任务上优于LoRA和其他PEFT方法,收敛更快,泛化能力更强。

📝 摘要(中文)

参数高效微调(PEFT),特别是低秩自适应(LoRA),通过仅训练一小部分参数来调整大型语言模型(LLM)。然而,随着用于自适应的低秩矩阵的秩增加,LoRA经常表现出不稳定的“双重下降”现象,其特征在于训练损失的瞬时发散,这延迟了收敛并通过导致对尖锐局部最小值的吸引力而损害了泛化能力。为了解决这个问题,我们引入了LoRA-MGPO,这是一个结合了动量引导扰动优化(MGPO)的框架。MGPO通过缓解双重下降现象并使用来自优化器状态的动量向量引导权重扰动来稳定训练动态,从而避免了双重梯度计算。此外,自适应归一化方案基于梯度范数的指数移动平均(EMA)来缩放扰动的大小,从而进一步增强了稳定性。虽然EMA控制扰动的大小,但MGPO引导它们的方向,确保更稳定的优化轨迹。在一系列自然语言理解和生成基准上的实验表明,LoRA-MGPO始终优于LoRA和其他PEFT方法。分析表明,LoRA-MGPO通过稳定训练过程并减轻对尖锐最小值的吸引力,从而实现更平滑的损失曲线、更快的收敛和改进的泛化。

🔬 方法详解

问题定义:论文旨在解决LoRA方法在低秩自适应过程中出现的双重下降问题。当LoRA的低秩矩阵秩增大时,训练损失会出现瞬时发散,导致收敛速度变慢,模型容易陷入尖锐的局部最小值,从而影响模型的泛化能力。现有方法难以有效缓解这一问题。

核心思路:论文的核心思路是通过动量引导的扰动优化(MGPO)来稳定训练过程。MGPO利用优化器中的动量信息来指导权重的扰动方向,避免盲目扰动,从而更有效地探索参数空间,并减轻对尖锐局部最小值的吸引力。同时,使用自适应归一化方案来控制扰动的大小,进一步增强训练的稳定性。

技术框架:LoRA-MGPO框架主要包含两个关键部分:动量引导扰动优化和自适应归一化。首先,从优化器的状态中获取动量向量。然后,使用动量向量作为扰动方向的指导,对LoRA的权重进行扰动。同时,使用梯度范数的指数移动平均(EMA)来动态调整扰动的大小,确保扰动不会过大或过小。整个过程无需额外的梯度计算,计算效率较高。

关键创新:LoRA-MGPO的关键创新在于利用动量信息来指导权重的扰动方向。与传统的随机扰动或基于梯度的扰动方法不同,MGPO能够更有效地探索参数空间,并避免陷入尖锐的局部最小值。此外,自适应归一化方案能够根据训练的动态情况调整扰动的大小,进一步增强了训练的稳定性。

关键设计:MGPO的关键设计包括:1) 使用优化器的动量向量作为扰动方向的指导;2) 使用梯度范数的指数移动平均(EMA)来动态调整扰动的大小;3) 扰动的幅度通过一个可调节的超参数控制,该超参数可以根据具体的任务进行调整。损失函数与原始LoRA保持一致,没有引入额外的损失项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LoRA-MGPO在多个自然语言理解和生成基准测试中,性能均优于LoRA和其他PEFT方法。例如,在某些任务上,LoRA-MGPO的性能提升超过2%,并且收敛速度更快,损失曲线更平滑,验证了其在缓解双重下降问题方面的有效性。

🎯 应用场景

LoRA-MGPO可广泛应用于大型语言模型的参数高效微调,尤其是在资源受限的场景下。该方法能够提高模型的训练稳定性和泛化能力,降低训练成本,加速模型部署。潜在的应用领域包括自然语言处理、机器翻译、文本生成、对话系统等。

📄 摘要(原文)

Parameter-efficient fine-tuning (PEFT), particularly Low-Rank Adaptation (LoRA), adapts large language models (LLMs) by training only a small fraction of parameters. However, as the rank of the low-rank matrices used for adaptation increases, LoRA often exhibits an unstable "double descent" phenomenon, characterized by transient divergence in the training loss, which delays convergence and impairs generalization by causing instability due to the attraction to sharp local minima. To address this, we introduce LoRA-MGPO, a framework that incorporates Momentum-Guided Perturbation Optimization (MGPO). MGPO stabilizes training dynamics by mitigating the double descent phenomenon and guiding weight perturbations using momentum vectors from the optimizer's state, thus avoiding dual gradient computations. Additionally, an adaptive normalization scheme scales the magnitude of perturbations based on an exponential moving average (EMA) of gradient norms, further enhancing stability. While EMA controls the magnitude of the perturbations, MGPO guides their direction, ensuring a more stable optimization trajectory. Experiments on a suite of natural language understanding and generation benchmarks show that LoRA-MGPO consistently achieves superior performance over LoRA and other PEFT methods. The analysis indicates that LoRA-MGPO leads to smoother loss curves, faster convergence, and improved generalization by stabilizing the training process and mitigating the attraction to sharp minima.