ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models

作者: Raghav Singhal, Kaustubh Ponkshe, Rohit Vartak, Praneeth Vepakomma

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-20 (更新: 2025-10-02)

备注: Raghav Singhal, Kaustubh Ponkshe, and Rohit Vartak contributed equally to this work

🔗 代码/项目: GITHUB

💡 一句话要点

提出ABBA-Adapters，通过高效且富有表现力的微调方法提升基础模型性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 低秩分解 Hadamard积 大型语言模型 模型解耦

📋 核心要点

现有PEFT方法（如LoRA）的表达能力受限于低秩分解的秩，HiRA等方法仍依赖预训练模型结构。
ABBA将更新表示为两个独立可学习的低秩矩阵的Hadamard积，完全解耦更新与预训练权重。
实验表明，ABBA在算术和常识推理任务上显著优于现有PEFT方法，实现了SOTA性能。

📝 摘要（中文）

大型语言模型在各种任务中表现出强大的性能，但如何高效地将其适应到新的领域仍然是一个关键挑战。参数高效微调（PEFT）方法通过引入轻量级的、可训练的模块来解决这个问题，同时保持大部分预训练权重固定。目前主流的方法LoRA使用低秩分解来建模更新，但其表达能力受到秩的限制。最近的方法如HiRA旨在通过与冻结权重进行Hadamard积来提高表达能力，但仍然依赖于预训练模型的结构。我们引入ABBA，一种新的PEFT架构，它将更新重新参数化为两个独立可学习的低秩矩阵的Hadamard积。与之前的工作相比，ABBA完全将更新与预训练权重解耦，使得两个组件都可以自由优化。这在相同的参数预算下实现了显著更高的表达能力，我们通过矩阵重构实验验证了这一特性。在经验上，ABBA在算术和常识推理基准测试中取得了最先进的结果，在多个模型上始终优于现有的PEFT方法。

🔬 方法详解

问题定义：论文旨在解决大型语言模型微调过程中，参数效率和模型表达能力之间的矛盾。现有参数高效微调方法，如LoRA，虽然减少了可训练参数的数量，但其表达能力受到低秩分解的限制。而HiRA等方法虽然尝试提升表达能力，但仍然依赖于预训练模型的结构，限制了其灵活性和泛化能力。

核心思路：ABBA的核心思路是将模型更新解耦为两个独立可学习的低秩矩阵的Hadamard积。通过这种方式，模型更新不再直接依赖于预训练权重，从而可以更自由地学习新的知识和适应新的任务。这种解耦设计允许ABBA在保持参数效率的同时，显著提升模型的表达能力。

技术框架：ABBA-Adapters的整体框架是在预训练模型的每一层中插入ABBA模块。每个ABBA模块包含两个低秩矩阵A和B，它们的Hadamard积用于更新该层的权重。具体来说，对于预训练模型的某一层，其原始权重为W，ABBA模块的输出为W' = W + A ⊙ B，其中⊙表示Hadamard积。在训练过程中，预训练权重W保持固定，只训练A和B。

关键创新：ABBA最重要的技术创新在于其解耦的更新方式。与LoRA等方法直接对权重矩阵进行低秩分解不同，ABBA通过两个独立可学习的低秩矩阵的Hadamard积来表示更新。这种解耦使得ABBA可以更灵活地学习新的知识，并且不容易受到预训练模型结构的限制。

关键设计：ABBA的关键设计包括：1) 使用Hadamard积来组合两个低秩矩阵，从而实现非线性的更新；2) 将两个低秩矩阵A和B独立学习，避免了对预训练权重的依赖；3) 通过控制低秩矩阵的秩来调节模型的参数量和表达能力。论文中没有明确提及特定的损失函数或网络结构细节，但ABBA可以与现有的训练策略和优化器兼容。

🖼️ 关键图片

📊 实验亮点

ABBA在算术和常识推理基准测试中取得了显著的性能提升。例如，在GSM8K数据集上，ABBA优于LoRA等现有PEFT方法。矩阵重构实验也验证了ABBA在相同参数预算下具有更高的表达能力。实验结果表明，ABBA是一种高效且富有表现力的微调方法，能够有效提升大型语言模型的性能。

🎯 应用场景

ABBA-Adapters可应用于各种需要高效微调大型语言模型的场景，例如：特定领域的文本生成、知识问答、对话系统等。其高效性和高表达能力使得它能够在资源有限的情况下，快速适应新的任务和领域，具有广泛的应用前景和实际价值。未来，ABBA可以进一步扩展到其他类型的模型和任务中，例如视觉Transformer和多模态学习。

📄 摘要（原文）

Large Language Models have demonstrated strong performance across a wide range of tasks, but adapting them efficiently to new domains remains a key challenge. Parameter-Efficient Fine-Tuning (PEFT) methods address this by introducing lightweight, trainable modules while keeping most pre-trained weights fixed. The prevailing approach, LoRA, models updates using a low-rank decomposition, but its expressivity is inherently constrained by the rank. Recent methods like HiRA aim to increase expressivity by incorporating a Hadamard product with the frozen weights, but still rely on the structure of the pre-trained model. We introduce ABBA, a new PEFT architecture that reparameterizes the update as a Hadamard product of two independently learnable low-rank matrices. In contrast to prior work, ABBA fully decouples the update from the pre-trained weights, enabling both components to be optimized freely. This leads to significantly higher expressivity under the same parameter budget, a property we validate through matrix reconstruction experiments. Empirically, ABBA achieves state-of-the-art results on arithmetic and commonsense reasoning benchmarks, consistently outperforming existing PEFT methods by a significant margin across multiple models. Our code is publicly available at: https://github.com/CERT-Lab/abba.

ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理