Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

作者: Ziqi Gao, Qichao Wang, Aochuan Chen, Zijing Liu, Bingzhe Wu, Liang Chen, Jia Li

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-05-05

备注: Accepted by ICML 2024

🔗 代码/项目: GITHUB

💡 一句话要点

提出FourierFT，利用离散傅里叶变换压缩微调参数，提升大模型参数效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 傅里叶变换 低秩适应 大模型 自然语言处理 图像分类 模型压缩

📋 核心要点

LoRA虽然减少了微调参数，但面对大型模型和大量定制化任务时，存储压力依然显著。
FourierFT将权重变化矩阵视为空间域信号，通过学习少量频谱系数，利用逆傅里叶变换重构权重变化。
实验表明，FourierFT在多种任务上，以更少的参数实现了与LoRA相当甚至更优的性能。

📝 摘要（中文）

低秩适应(LoRA)最近在微调基础模型方面引起了广泛关注。它通过引入低秩矩阵$A$和$B$来表示权重变化，即$ΔW=BA$，从而有效地减少了可训练参数的数量。尽管LoRA取得了进展，但在处理大量的定制化适配或更大的基础模型时，它面临着存储挑战。在这项工作中，我们的目标是通过利用傅里叶变换强大的表达能力来进一步压缩可训练参数。具体来说，我们引入了FourierFT，它将$ΔW$视为空间域中的矩阵，并且仅学习其频谱系数的一小部分。通过训练后的频谱系数，我们实现逆离散傅里叶变换以恢复$ΔW$。在经验上，我们的FourierFT方法在各种任务上，包括自然语言理解、自然语言生成、指令调优和图像分类，都表现出与LoRA相当或更好的性能，同时使用更少的参数。例如，在LLaMA2-7B模型上执行指令调优时，FourierFT仅使用0.064M可训练参数就超过了LoRA，而LoRA需要33.5M。

🔬 方法详解

问题定义：论文旨在解决大型预训练模型微调过程中，LoRA方法在参数效率上的不足。LoRA通过引入低秩矩阵来减少可训练参数，但当模型规模增大或需要进行大量定制化适配时，其参数量仍然较高，导致存储和计算成本增加。现有方法的痛点在于无法进一步压缩参数，难以满足资源受限场景的需求。

核心思路：论文的核心思路是利用离散傅里叶变换(DFT)的性质，将权重变化矩阵从空间域转换到频域，并只学习少量重要的频谱系数。由于自然信号在频域通常是稀疏的，因此可以通过保留少量频谱系数来近似原始信号，从而大大减少需要训练的参数量。这样设计的目的是利用频域的稀疏性来实现参数压缩，同时保持模型的表达能力。

技术框架：FourierFT的整体框架如下：1. 将预训练模型的权重矩阵视为空间域信号。2. 对权重变化矩阵ΔW进行离散傅里叶变换，得到频谱系数。3. 只选择并训练少量重要的频谱系数。4. 使用训练后的频谱系数进行逆离散傅里叶变换(IDFT)，重构权重变化矩阵ΔW。5. 将重构后的ΔW加到原始权重上，完成微调。

关键创新：FourierFT最重要的技术创新点在于将傅里叶变换应用于模型微调，通过在频域进行参数压缩，实现了比LoRA更高的参数效率。与LoRA直接学习低秩矩阵不同，FourierFT学习的是频谱系数，利用了自然信号在频域的稀疏性，从而可以用更少的参数表示权重变化。

关键设计：关键设计包括：1. 如何选择重要的频谱系数：可以使用不同的策略，例如选择幅度最大的前k个系数。2. 逆离散傅里叶变换的实现：需要高效的IDFT算法来将频谱系数转换回空间域。3. 损失函数的设计：可以使用标准的微调损失函数，例如交叉熵损失。4. 参数初始化：频谱系数的初始化方式可能会影响模型的性能。

📊 实验亮点

实验结果表明，FourierFT在多个NLP和CV任务上都优于LoRA。例如，在LLaMA2-7B模型上进行指令调优时，FourierFT仅使用0.064M可训练参数就超过了LoRA的33.5M参数，实现了显著的参数压缩。在其他任务上，FourierFT也表现出与LoRA相当或更好的性能，同时使用更少的参数。

🎯 应用场景

FourierFT在资源受限的场景下具有广泛的应用前景，例如移动设备上的模型部署、边缘计算以及对存储空间有严格要求的应用。该方法可以降低大模型微调的存储和计算成本，使得在有限资源下进行模型定制化成为可能。未来，FourierFT可以与其他参数高效微调技术结合，进一步提升模型性能和参数效率。

📄 摘要（原文）

Low-rank adaptation~(LoRA) has recently gained much interest in fine-tuning foundation models. It effectively reduces the number of trainable parameters by incorporating low-rank matrices $A$ and $B$ to represent the weight change, i.e., $ΔW=BA$. Despite LoRA's progress, it faces storage challenges when handling extensive customization adaptations or larger base models. In this work, we aim to further compress trainable parameters by enjoying the powerful expressiveness of the Fourier transform. Specifically, we introduce FourierFT, which treats $ΔW$ as a matrix in the spatial domain and learns only a small fraction of its spectral coefficients. With the trained spectral coefficients, we implement the inverse discrete Fourier transform to recover $ΔW$. Empirically, our FourierFT method shows comparable or better performance with fewer parameters than LoRA on various tasks, including natural language understanding, natural language generation, instruction tuning, and image classification. For example, when performing instruction tuning on the LLaMA2-7B model, FourierFT surpasses LoRA with only 0.064M trainable parameters, compared to LoRA's 33.5M. Our code is released at \url{https://github.com/Chaos96/fourierft}.

Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理