Block Circulant Adapter for Large Language Models

作者: Xinyu Ding, Meiqi Wang, Siyu Liao, Zhongfeng Wang

分类: cs.CL, cs.LG

发布日期: 2025-05-01 (更新: 2025-07-15)

备注: to appear in Proceedings of the 2025 International Joint Conference on Artificial Intelligence (IJCAI-2025)

💡 一句话要点

提出基于分块循环矩阵适配器的LLM微调方法，降低存储和计算成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 微调 循环矩阵 傅里叶变换 参数效率 频域方法

📋 核心要点

大型语言模型微调面临参数量巨大带来的存储和计算挑战。
利用循环矩阵和傅里叶变换的性质，设计分块循环矩阵适配器，降低微调成本。
实验表明，该方法在参数量和计算量上显著优于现有方法，同时保持或提升性能。

📝 摘要（中文）

由于大型语言模型（LLM）的模型规模巨大，微调非常困难。最近基于傅里叶域的方法显示出降低微调成本的潜力。我们提出了一种基于分块循环矩阵的微调方法，并结合稳定的训练启发式方法，利用循环矩阵和一维傅里叶变换的特性来降低存储和计算成本。实验表明，我们的方法使用的参数数量比VeRA少14倍，比LoRA少16倍，比FourierFT少32倍的FLOPs，同时保持接近或更好的任务性能。我们的方法在频域中为微调下游任务的大型模型提供了一种有前景的途径。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）微调过程中由于模型参数量巨大而导致的存储和计算成本过高的问题。现有的微调方法，如全参数微调、LoRA、VeRA等，要么需要大量的计算资源，要么引入了大量的额外参数，限制了其在资源受限环境下的应用。

核心思路：论文的核心思路是利用循环矩阵的特性，通过频域变换来降低参数量和计算复杂度。循环矩阵可以通过傅里叶变换进行对角化，从而简化计算过程。通过将适配器设计为分块循环矩阵，可以有效地减少需要训练的参数数量，同时利用快速傅里叶变换（FFT）加速计算。

技术框架：该方法的核心是在LLM的Transformer层中插入分块循环矩阵适配器。具体流程如下：1) 将适配器参数初始化为分块循环矩阵；2) 在前向传播过程中，将输入数据与适配器进行卷积操作（在频域中表现为乘法）；3) 利用反向传播算法更新适配器参数。整个框架可以与现有的LLM架构无缝集成。

关键创新：该方法最重要的技术创新点在于将分块循环矩阵引入到LLM的微调中。与传统的适配器方法相比，分块循环矩阵能够显著减少参数量，并利用FFT加速计算。此外，论文还提出了一种稳定的训练启发式方法，以确保训练过程的稳定性和收敛性。

关键设计：关键设计包括：1) 适配器参数的初始化方式，确保其为分块循环矩阵；2) 损失函数的设计，通常采用交叉熵损失函数；3) 训练过程中的学习率调整策略，以保证训练的稳定性和收敛速度；4) 分块循环矩阵的块大小设置，需要在参数量和性能之间进行权衡。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在参数量上显著优于现有方法，例如比VeRA少14倍，比LoRA少16倍，比FourierFT少32倍的FLOPs。同时，该方法在多个下游任务上保持了接近或更好的性能。这些结果表明，该方法在降低微调成本的同时，能够有效地保持模型的性能。

🎯 应用场景

该研究成果可应用于资源受限场景下的大型语言模型微调，例如在边缘设备或移动设备上部署LLM。此外，该方法还可以用于加速LLM的训练和推理过程，提高模型的效率。未来，该方法有望推广到其他深度学习模型和任务中，例如图像识别、语音识别等。

📄 摘要（原文）

Fine-tuning large language models (LLMs) is difficult due to their huge model size. Recent Fourier domain-based methods show potential for reducing fine-tuning costs. We propose a block circulant matrix-based fine-tuning method with a stable training heuristic to leverage the properties of circulant matrices and one-dimensional Fourier transforms to reduce storage and computation costs. Experiments show that our method uses $14\times$ less number of parameters than VeRA, $16\times$ smaller than LoRA and $32\times$ less FLOPs than FourierFT, while maintaining close or better task performance. Our approach presents a promising way in frequency domain to fine-tune large models on downstream tasks.

Block Circulant Adapter for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理