LoRTA: Low Rank Tensor Adaptation of Large Language Models

📄 arXiv: 2410.04060v3 📥 PDF

作者: Ignacio Hounie, Charilaos Kanatsoulis, Arnuv Tandon, Alejandro Ribeiro

分类: cs.CL, cs.AI

发布日期: 2024-10-05 (更新: 2025-02-02)


💡 一句话要点

LoRTA:基于低秩张量分解的大语言模型高效参数微调方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩适应 参数高效微调 张量分解 CP分解 大语言模型 模型压缩 自然语言处理

📋 核心要点

  1. LoRA虽然减少了参数量,但其低秩矩阵的参数下限仍然较高,限制了进一步压缩。
  2. LoRTA利用高阶CP分解,对模型更新进行更紧凑和灵活的张量表示,减少冗余。
  3. 实验表明,LoRTA在多个任务上,能在保持性能的同时,进一步减少参数量。

📝 摘要(中文)

低秩适应(LoRA)是一种流行的参数高效微调(PEFT)方法,它能有效地将大型预训练模型适配到下游任务。LoRA通过在每一层使用低秩矩阵来参数化模型更新,显著减少了可训练参数的数量,从而降低了微调期间的资源需求。然而,由于低秩矩阵模型的使用,可训练参数数量的下限仍然很高。最近的研究通过提出用于模型更新的低秩张量参数化来解决这一限制。但是,它们仅利用跨层的冗余,或者使用引入额外超参数的临时方案来张量化单个矩阵。在这项工作中,我们提出了一种高阶Candecomp/Parafac (CP)分解,与现有的基于矩阵和张量的PEFT方法相比,它能够实现更紧凑和灵活的表示。我们在自然语言理解、指令调优、偏好优化和蛋白质折叠基准上的实验表明,我们的方法可以在保持相当性能的同时减少参数数量。

🔬 方法详解

问题定义:现有LoRA方法使用低秩矩阵进行参数更新,虽然减少了参数量,但仍然存在参数冗余,限制了进一步降低参数规模。此外,一些基于张量的方法要么只利用跨层冗余,要么使用引入额外超参数的临时方案来张量化矩阵,缺乏灵活性和通用性。

核心思路:LoRTA的核心思路是利用高阶张量分解(具体来说是CP分解)来参数化模型更新。通过将模型更新表示为多个低秩因子的乘积,可以更有效地捕捉参数之间的相关性,从而实现更紧凑的参数表示,减少冗余。

技术框架:LoRTA的整体框架与LoRA类似,都是在预训练模型的每一层添加可训练的参数。不同之处在于,LoRTA不是使用低秩矩阵,而是使用CP分解后的低秩因子来表示参数更新。具体来说,对于每一层,LoRTA将权重矩阵的更新ΔW表示为多个低秩张量的CP分解结果。这些低秩张量是可训练的参数。

关键创新:LoRTA的关键创新在于使用高阶CP分解来参数化模型更新。与传统的低秩矩阵分解相比,CP分解能够更好地捕捉参数之间的复杂关系,从而实现更紧凑的参数表示。此外,LoRTA避免了引入额外的超参数,保持了模型的简洁性。与一些现有的张量分解方法相比,LoRTA使用了更高阶的分解,能够更灵活地适应不同的模型结构和任务。

关键设计:LoRTA的关键设计在于CP分解的秩的选择。秩的大小决定了模型的表达能力和参数量。作者通过实验选择合适的秩,以在性能和参数量之间取得平衡。此外,LoRTA的实现细节与LoRA类似,例如使用缩放因子来控制更新的幅度,并使用Adam优化器进行训练。损失函数与原始任务保持一致,无需额外设计。

📊 实验亮点

实验结果表明,LoRTA在自然语言理解、指令调优、偏好优化和蛋白质折叠等多个基准测试中,能够在保持与LoRA相当的性能的同时,显著减少参数数量。例如,在某些任务上,LoRTA可以将参数数量减少高达20%-30%,而性能几乎没有下降。这表明LoRTA是一种非常有潜力的参数高效微调方法。

🎯 应用场景

LoRTA可应用于各种需要高效微调的大语言模型场景,例如自然语言处理、计算机视觉和生物信息学等。它能够降低微调所需的计算资源和存储成本,使得在资源受限的环境中部署和应用大型模型成为可能。此外,LoRTA还可以用于模型压缩和知识蒸馏,进一步提高模型的效率。

📄 摘要(原文)

Low Rank Adaptation (LoRA) is a popular Parameter Efficient Fine Tuning (PEFT) method that effectively adapts large pre-trained models for downstream tasks. LoRA parameterizes model updates using low-rank matrices at each layer, significantly reducing the number of trainable parameters and, consequently, resource requirements during fine-tuning. However, the lower bound on the number of trainable parameters remains high due to the use of the low-rank matrix model. Recent works have addressed this limitation by proposing low rank tensor parameterizations for model updates. However, they only exploit redundancy across layers, or tensorize individual matrices using ad-hoc schemes that introduce additional hyperparameters. In this work, we propose a higher-order Candecomp/Parafac (CP) decomposition, enabling a more compact and flexible representation compared to existing matrix and tensor based PEFT methods. Our experiments on Natural Language Understanding, Instruction Tuning, Preference Optimization and Protein Folding benchmarks demonstrate that our method can achieve a reduction in the number of parameters while maintaining comparable performance.