Rethinking Adapter Placement: A Dominant Adaptation Module Perspective

📄 arXiv: 2605.06183v1 📥 PDF

作者: Suoxin Zhang, Run He, Di Fang, Xiang Tan, Kaixuan Chen, Huiping Zhuang

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-05-07


💡 一句话要点

提出DomLoRA,通过单适配器放置实现参数高效的微调,优于传统LoRA。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 低秩适配 LoRA 梯度能量 适配器放置 主导适配模块 自然语言处理

📋 核心要点

  1. 现有LoRA方法在适配器放置上存在冗余,未能有效利用少量适配器的潜力。
  2. 论文提出DomLoRA,通过PAGE探测梯度能量,确定主导适配模块并放置单个适配器。
  3. 实验表明,DomLoRA仅用少量参数即可超越传统LoRA,并在多个任务上取得显著提升。

📝 摘要(中文)

低秩适配(LoRA)是一种广泛使用的参数高效微调方法,它将可训练的低秩适配器插入到冻结的预训练模型中。最近的研究表明,使用更少的LoRA适配器可能仍然保持甚至提高性能,但现有方法仍然广泛地分布适配器,使得如何放置有限数量的适配器以最大化性能的问题很大程度上是开放的。为了研究这个问题,我们引入了PAGE(投影适配器梯度能量),这是一种基于梯度的敏感性探测方法,用于估计每个候选LoRA适配器可用的初始可训练梯度能量。令人惊讶的是,我们发现PAGE高度集中在两个模型家族和四个下游任务中的单个浅层FFN下投影上。我们将此模块称为主导适配模块,并表明其层索引依赖于架构,但任务稳定。受此发现的启发,我们提出了DomLoRA,一种将单个适配器放置在主导适配模块上的放置方法。DomLoRA仅使用约0.7%的vanilla LoRA的可训练参数,在包括指令跟随、数学推理、代码生成和多轮对话在内的各种下游任务中平均优于它。该方法还改进了其他LoRA变体,支持主导适配模块视角作为一种实用的放置指南。

🔬 方法详解

问题定义:现有参数高效微调方法,如LoRA,通常在模型的多个层中均匀或随机地放置适配器。然而,这种策略忽略了不同层对微调的贡献差异,导致参数冗余和效率低下。如何确定最佳的适配器放置位置,以在有限的参数预算下最大化模型性能,是本文要解决的关键问题。

核心思路:论文的核心思路是识别模型中对微调贡献最大的“主导适配模块”,并将唯一的适配器放置在该模块上。通过分析梯度能量分布,可以找到对模型性能影响最大的层,从而实现更高效的参数利用。这种方法基于一个假设:模型中存在一个或少数几个关键层,它们对特定任务的适应性起着主导作用。

技术框架:DomLoRA方法主要包含两个阶段:1) 使用PAGE(Projected Adapter Gradient Energy)探测器识别主导适配模块。PAGE通过计算每个候选适配器的梯度能量,评估其对模型性能的潜在影响。2) 将单个LoRA适配器放置在PAGE探测到的主导适配模块上,并进行微调。整个过程无需复杂的搜索或优化算法,简单高效。

关键创新:论文的关键创新在于提出了PAGE探测器和主导适配模块的概念。PAGE提供了一种有效的方法来评估不同层对微调的贡献,而主导适配模块则为适配器放置提供了一个明确的目标。与现有方法相比,DomLoRA避免了盲目地在多个层中放置适配器,而是集中资源于最关键的模块,从而提高了参数效率。

关键设计:PAGE探测器的设计基于梯度能量的概念,通过计算每个候选适配器的梯度范数来评估其重要性。具体来说,PAGE计算的是适配器参数梯度在输入数据上的投影能量。实验中,作者发现PAGE值高度集中在模型的某个特定层,该层即被认为是主导适配模块。DomLoRA使用标准的LoRA适配器,没有引入新的网络结构或损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DomLoRA仅使用约0.7%的vanilla LoRA的可训练参数,在指令跟随、数学推理、代码生成和多轮对话等多个下游任务中,平均性能优于vanilla LoRA。此外,DomLoRA还可以提升其他LoRA变体的性能,证明了主导适配模块视角作为一种实用放置指南的有效性。实验结果表明,DomLoRA在参数效率和性能之间取得了良好的平衡。

🎯 应用场景

DomLoRA方法可应用于各种自然语言处理任务,尤其是在资源受限的场景下,例如移动设备或边缘计算。通过减少微调所需的参数量,DomLoRA可以降低计算成本和存储需求,使得大型预训练模型更容易部署到实际应用中。此外,该方法还可以作为一种通用的适配器放置策略,用于改进其他参数高效微调方法。

📄 摘要(原文)

Low-rank adaptation (LoRA) is a widely used parameter-efficient fine-tuning method that places trainable low-rank adapters into frozen pre-trained models. Recent studies show that using fewer LoRA adapters may still maintain or even improve performance, but existing methods still distribute adapters broadly, leaving where to place a limited number of adapters to maximize performance largely open. To investigate this, we introduce PAGE (Projected Adapter Gradient Energy), a gradient-based sensitivity probe that estimates the initial trainable gradient energy available to each candidate LoRA adapter. Surprisingly, we find that PAGE is highly concentrated on a single shallow FFN down-projection across two model families and four downstream tasks. We term this module the dominant adaptation module and show that its layer index is architecture-dependent but task-stable. Motivated by this finding, we propose DomLoRA, a placement method that places a single adapter at the dominant adaptation module. With only ~0.7% of vanilla LoRA's trainable parameters, DomLoRA outperforms it on average across various downstream tasks, including instruction following, mathematical reasoning, code generation, and multi-turn conversation. This method also improves other LoRA variants, supporting the dominant adaptation module perspective as a practical placement guideline.