PrunedLoRA: Robust Gradient-Based structured pruning for Low-rank Adaptation in Fine-tuning

📄 arXiv: 2510.00192v2 📥 PDF

作者: Xin Yu, Cong Xie, Ziyu Zhao, Tiantian Fan, Lingzhou Xue, Zhi Zhang

分类: cs.LG, cs.AI

发布日期: 2025-09-30 (更新: 2025-11-01)


💡 一句话要点

PrunedLoRA:通过梯度结构化剪枝,为微调中的低秩自适应提供鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩自适应 参数高效微调 结构化剪枝 梯度剪枝 大语言模型

📋 核心要点

  1. LoRA微调方法存在表征能力不足的问题,如何从过参数化空间中获得更具表达力的低秩适配器是一个挑战。
  2. PrunedLoRA通过结构化剪枝,动态剪除不重要的组件,实现灵活的秩分配,从而获得更具代表性的低秩适配器。
  3. 实验表明,PrunedLoRA在数学推理、代码生成和自然语言理解等任务上,优于LoRA及其变体,以及现有的结构化剪枝方法。

📝 摘要(中文)

低秩自适应(LoRA)已成为大型语言模型参数高效微调的常用范例,但其表征能力通常落后于完全微调。在LoRA的背景下,一个关键的开放问题是如何从过度参数化的空间中获得富有表现力的低秩适配器。我们提出了PrunedLoRA,一个新的框架,它利用结构化剪枝从过度参数化的初始化中获得高度代表性的低秩适配器。与施加固定低秩预算的先前方法不同,PrunedLoRA在微调期间动态地剪枝不太重要的组件并防止它们的重新激活,从而实现灵活和自适应的秩分配。对于结构化剪枝,通过最小化整体损失的剪枝误差,我们提供了一种基于梯度的剪枝策略中的细粒度剪枝和恢复更新,并具有可靠的解释。我们提供了结构化剪枝鲁棒性的第一个理论分析,并证明在权重扰动的影响下,基于梯度的剪枝比基于激活的剪枝在整体损失方面更鲁棒。在经验上,PrunedLoRA在数学推理、代码生成和自然语言理解的监督微调任务中始终优于LoRA及其变体,并且在不同的稀疏度水平上,它也表现出优于现有结构化剪枝方法的优势。

🔬 方法详解

问题定义:LoRA虽然参数高效,但其表征能力有限,无法达到全参数微调的效果。现有方法通常采用固定的低秩预算,限制了模型的表达能力。如何自适应地调整LoRA的秩,以获得更好的性能,是本文要解决的问题。

核心思路:本文的核心思路是利用结构化剪枝,从一个过参数化的LoRA初始化开始,动态地剪除不重要的参数,从而得到一个更精简、更具表达能力的低秩适配器。通过梯度信息来判断参数的重要性,并防止被剪枝的参数重新激活。

技术框架:PrunedLoRA框架主要包含以下几个阶段:1) LoRA初始化:使用一个过参数化的LoRA进行初始化。2) 梯度结构化剪枝:基于梯度信息,对LoRA的参数进行结构化剪枝,移除不重要的参数。3) 微调:对剪枝后的LoRA进行微调,使其适应下游任务。4) 剪枝恢复更新:在微调过程中,允许对剪枝的参数进行恢复更新,以进一步提升性能。

关键创新:PrunedLoRA的关键创新在于:1) 动态秩分配:通过结构化剪枝,实现了LoRA秩的动态调整,避免了固定秩的限制。2) 基于梯度的剪枝策略:利用梯度信息来判断参数的重要性,并进行剪枝,保证了剪枝的有效性。3) 剪枝恢复更新:允许被剪枝的参数在微调过程中重新激活,进一步提升了模型的性能。4) 理论分析:提供了结构化剪枝鲁棒性的理论分析,证明了基于梯度的剪枝比基于激活的剪枝更鲁棒。

关键设计:PrunedLoRA的关键设计包括:1) 剪枝率:控制剪枝的比例,影响模型的稀疏度和性能。2) 梯度计算:使用梯度来衡量参数的重要性,并进行剪枝。3) 剪枝掩码:使用掩码来记录被剪枝的参数,防止其重新激活。4) 损失函数:使用标准的微调损失函数,并加入剪枝相关的正则化项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PrunedLoRA在数学推理、代码生成和自然语言理解等任务上,显著优于LoRA及其变体。例如,在某些任务上,PrunedLoRA的性能提升超过5%。此外,PrunedLoRA在不同的稀疏度水平上,也优于现有的结构化剪枝方法,证明了其有效性和鲁棒性。

🎯 应用场景

PrunedLoRA可应用于各种需要参数高效微调的大型语言模型场景,例如自然语言处理、代码生成、数学推理等。该方法能够提升微调模型的性能,同时降低计算资源消耗,具有广泛的应用前景。未来,可以进一步研究如何将PrunedLoRA应用于更复杂的模型和任务中。

📄 摘要(原文)

Low-rank adaptation (LoRA) has become a widely used paradigm for parameter-efficient fine-tuning of large language models, yet its representational capacity often lags behind full fine-tuning. Within the context of LoRA, a key open question is how to obtain expressive low-rank adapters from over-parameterized spaces. We propose \textit{PrunedLoRA}, a new framework that leverages structured pruning to obtain highly representative low-rank adapters from an over-parameterized initialization. Unlike prior approaches that impose a fixed low-rank budget, PrunedLoRA dynamically prunes less important components during fine-tuning and prevents their reactivation, enabling flexible and adaptive rank allocation. For structured pruning, by minimizing the pruning error for overall loss, we provide fine-grained pruning and recovery updates in a gradient-based pruning strategy with grounded interpretation. We provide the first theoretical analysis of the robustness of structured pruning and provably show that under the impact of weight perturbation, gradient-based pruning is more robust than activation-based pruning with respect to overall loss. Empirically, PrunedLoRA consistently outperforms LoRA and its variants across supervised fine-tuning tasks in mathematical reasoning, code generation, and natural language understanding, and it also demonstrates advantages over existing structured pruning methods across diverse sparsity levels.