ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models
作者: Raghav Singhal, Kaustubh Ponkshe, Rohit Vartak, Praneeth Vepakomma
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-05-20 (更新: 2025-10-02)
备注: Raghav Singhal, Kaustubh Ponkshe, and Rohit Vartak contributed equally to this work
🔗 代码/项目: GITHUB
💡 一句话要点
提出ABBA-Adapters,通过高效且富有表现力的微调方法提升基础模型性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 低秩分解 Hadamard积 大型语言模型 模型解耦
📋 核心要点
- 现有PEFT方法(如LoRA)的表达能力受限于低秩分解的秩,HiRA等方法仍依赖预训练模型结构。
- ABBA将更新表示为两个独立可学习的低秩矩阵的Hadamard积,完全解耦更新与预训练权重。
- 实验表明,ABBA在算术和常识推理任务上显著优于现有PEFT方法,实现了SOTA性能。
📝 摘要(中文)
大型语言模型在各种任务中表现出强大的性能,但如何高效地将其适应到新的领域仍然是一个关键挑战。参数高效微调(PEFT)方法通过引入轻量级的、可训练的模块来解决这个问题,同时保持大部分预训练权重固定。目前主流的方法LoRA使用低秩分解来建模更新,但其表达能力受到秩的限制。最近的方法如HiRA旨在通过与冻结权重进行Hadamard积来提高表达能力,但仍然依赖于预训练模型的结构。我们引入ABBA,一种新的PEFT架构,它将更新重新参数化为两个独立可学习的低秩矩阵的Hadamard积。与之前的工作相比,ABBA完全将更新与预训练权重解耦,使得两个组件都可以自由优化。这在相同的参数预算下实现了显著更高的表达能力,我们通过矩阵重构实验验证了这一特性。在经验上,ABBA在算术和常识推理基准测试中取得了最先进的结果,在多个模型上始终优于现有的PEFT方法。
🔬 方法详解
问题定义:论文旨在解决大型语言模型微调过程中,参数效率和模型表达能力之间的矛盾。现有参数高效微调方法,如LoRA,虽然减少了可训练参数的数量,但其表达能力受到低秩分解的限制。而HiRA等方法虽然尝试提升表达能力,但仍然依赖于预训练模型的结构,限制了其灵活性和泛化能力。
核心思路:ABBA的核心思路是将模型更新解耦为两个独立可学习的低秩矩阵的Hadamard积。通过这种方式,模型更新不再直接依赖于预训练权重,从而可以更自由地学习新的知识和适应新的任务。这种解耦设计允许ABBA在保持参数效率的同时,显著提升模型的表达能力。
技术框架:ABBA-Adapters的整体框架是在预训练模型的每一层中插入ABBA模块。每个ABBA模块包含两个低秩矩阵A和B,它们的Hadamard积用于更新该层的权重。具体来说,对于预训练模型的某一层,其原始权重为W,ABBA模块的输出为W' = W + A ⊙ B,其中⊙表示Hadamard积。在训练过程中,预训练权重W保持固定,只训练A和B。
关键创新:ABBA最重要的技术创新在于其解耦的更新方式。与LoRA等方法直接对权重矩阵进行低秩分解不同,ABBA通过两个独立可学习的低秩矩阵的Hadamard积来表示更新。这种解耦使得ABBA可以更灵活地学习新的知识,并且不容易受到预训练模型结构的限制。
关键设计:ABBA的关键设计包括:1) 使用Hadamard积来组合两个低秩矩阵,从而实现非线性的更新;2) 将两个低秩矩阵A和B独立学习,避免了对预训练权重的依赖;3) 通过控制低秩矩阵的秩来调节模型的参数量和表达能力。论文中没有明确提及特定的损失函数或网络结构细节,但ABBA可以与现有的训练策略和优化器兼容。
🖼️ 关键图片
📊 实验亮点
ABBA在算术和常识推理基准测试中取得了显著的性能提升。例如,在GSM8K数据集上,ABBA优于LoRA等现有PEFT方法。矩阵重构实验也验证了ABBA在相同参数预算下具有更高的表达能力。实验结果表明,ABBA是一种高效且富有表现力的微调方法,能够有效提升大型语言模型的性能。
🎯 应用场景
ABBA-Adapters可应用于各种需要高效微调大型语言模型的场景,例如:特定领域的文本生成、知识问答、对话系统等。其高效性和高表达能力使得它能够在资源有限的情况下,快速适应新的任务和领域,具有广泛的应用前景和实际价值。未来,ABBA可以进一步扩展到其他类型的模型和任务中,例如视觉Transformer和多模态学习。
📄 摘要(原文)
Large Language Models have demonstrated strong performance across a wide range of tasks, but adapting them efficiently to new domains remains a key challenge. Parameter-Efficient Fine-Tuning (PEFT) methods address this by introducing lightweight, trainable modules while keeping most pre-trained weights fixed. The prevailing approach, LoRA, models updates using a low-rank decomposition, but its expressivity is inherently constrained by the rank. Recent methods like HiRA aim to increase expressivity by incorporating a Hadamard product with the frozen weights, but still rely on the structure of the pre-trained model. We introduce ABBA, a new PEFT architecture that reparameterizes the update as a Hadamard product of two independently learnable low-rank matrices. In contrast to prior work, ABBA fully decouples the update from the pre-trained weights, enabling both components to be optimized freely. This leads to significantly higher expressivity under the same parameter budget, a property we validate through matrix reconstruction experiments. Empirically, ABBA achieves state-of-the-art results on arithmetic and commonsense reasoning benchmarks, consistently outperforming existing PEFT methods by a significant margin across multiple models. Our code is publicly available at: https://github.com/CERT-Lab/abba.