RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates

📄 arXiv: 2410.10075v3 📥 PDF

作者: Md Kowsher, Tara Esmaeilbeig, Chun-Nam Yu, Chen Chen, Mojtaba Soltanalian, Niloofar Yousefi

分类: cs.CL

发布日期: 2024-10-14 (更新: 2025-06-01)

备注: RoCoFT is a parameter-efficient method


💡 一句话要点

RoCoFT:通过行列更新高效微调大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 大型语言模型 行列更新 神经正切核 Transformer

📋 核心要点

  1. 现有参数高效微调方法在大型语言模型上仍面临内存和计算效率的挑战,限制了其应用。
  2. RoCoFT通过仅更新Transformer权重矩阵的少量行和列,显著降低了计算和存储需求。
  3. 实验表明,RoCoFT在多种规模的LLM上实现了与SOTA PEFT方法相当甚至更优的性能,同时更高效。

📝 摘要(中文)

本文提出了一种名为RoCoFT的参数高效微调方法,用于大规模语言模型(LMs)。该方法基于仅更新Transformer中权重矩阵的少量行和列。通过对中等规模的LMs(如BERT和RoBERTa)以及更大规模的LMs(如Bloom-7B、Llama2-7B和Llama2-13B)进行大量实验,结果表明,我们的方法在内存和计算效率更高的同时,能够提供与最先进的PEFT方法相当或更好的准确性。我们还利用神经正切核理论研究了该方法有效性的原因。我们通过实验证明,使用受限的行和列参数构建的核在数值上接近于全参数核,并提供相当的分类性能。此外,我们还进行了消融研究,以调查不同算法选择的影响,包括行和列的选择策略以及有效实现我们方法的最佳秩。

🔬 方法详解

问题定义:现有的大型语言模型微调方法,特别是全参数微调,需要大量的计算资源和存储空间,这使得它们在资源受限的环境中难以应用。参数高效微调(PEFT)方法旨在减少需要训练的参数数量,但仍然存在效率提升空间,尤其是在超大规模模型上。

核心思路:RoCoFT的核心思想是,并非权重矩阵中的所有参数都对模型的性能至关重要。通过选择性地更新权重矩阵的少量行和列,可以显著减少需要训练的参数数量,同时保持模型的性能。这种方法基于观察到,某些行和列可能包含更重要的信息,因此优先更新这些参数。

技术框架:RoCoFT方法主要包含以下几个步骤:1. 选择需要更新的行和列。论文中探讨了不同的选择策略。2. 对选定的行和列进行微调。3. 将微调后的参数更新回原始模型。整个过程可以集成到现有的训练流程中,无需修改模型的整体架构。

关键创新:RoCoFT的关键创新在于其行列更新策略。与传统的PEFT方法(如LoRA或Adapter)相比,RoCoFT直接作用于权重矩阵的行和列,从而更精细地控制了参数的更新。此外,论文还利用神经正切核理论来解释该方法的有效性,为参数选择提供了理论依据。

关键设计:RoCoFT的关键设计包括:1. 行列选择策略:论文研究了不同的行列选择方法,例如随机选择、基于梯度幅度的选择等。2. 更新秩的选择:论文探讨了更新矩阵的秩对性能的影响,并提出了选择最佳秩的策略。3. 损失函数:RoCoFT可以使用标准的交叉熵损失函数进行训练。4. 优化器:可以使用常见的优化器,如AdamW。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RoCoFT在多个大型语言模型(如Bloom-7B、Llama2-7B和Llama2-13B)上进行了实验,结果表明,该方法在保持甚至提高模型性能的同时,显著降低了内存和计算成本。例如,在某些任务上,RoCoFT实现了与全参数微调相当的准确率,但仅需更新不到1%的参数。

🎯 应用场景

RoCoFT具有广泛的应用前景,尤其是在资源受限的环境中部署大型语言模型。例如,它可以用于在边缘设备上微调和部署LLM,或者在计算资源有限的实验室中进行LLM研究。此外,RoCoFT还可以用于加速LLM的开发和迭代过程,降低训练成本。

📄 摘要(原文)

We propose RoCoFT, a parameter-efficient fine-tuning method for large-scale language models (LMs) based on updating only a few rows and columns of the weight matrices in transformers. Through extensive experiments with medium-size LMs like BERT and RoBERTa, and larger LMs like Bloom-7B, Llama2-7B, and Llama2-13B, we show that our method gives comparable or better accuracies than state-of-art PEFT methods while also being more memory and computation-efficient. We also study the reason behind the effectiveness of our method with tools from neural tangent kernel theory. We empirically demonstrate that our kernel, constructed using a restricted set of row and column parameters, are numerically close to the full-parameter kernel and gives comparable classification performance. Ablation studies are conducted to investigate the impact of different algorithmic choices, including the selection strategy for rows and columns as well as the optimal rank for effective implementation of our method.