FLoE: Fisher-Based Layer Selection for Efficient Sparse Adaptation of Low-Rank Experts

📄 arXiv: 2506.00495v1 📥 PDF

作者: Xinyi Wang, Lirong Gao, Haobo Wang, Yiming Zhang, Junbo Zhao

分类: cs.LG, cs.CL, stat.ML

发布日期: 2025-05-31

备注: 17 pages, 9 figures


💡 一句话要点

FLoE:基于Fisher信息的层选择低秩专家高效稀疏适配

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 大型语言模型 Fisher信息 贝叶斯优化 稀疏适配 低秩适配 模型压缩

📋 核心要点

  1. 现有PEFT方法在所有层上均匀部署LoRA适配器,忽略了不同层对任务贡献的差异性,导致参数冗余和效率低下。
  2. FLoE利用Fisher信息动态识别任务关键层,并采用MoE进行低秩适配,实现适配器的稀疏部署。
  3. FLoE使用贝叶斯优化自动确定最佳LoRA秩,无需手动网格搜索,实验证明其在效率和精度之间取得了良好平衡。

📝 摘要(中文)

参数高效微调(PEFT)方法已成为将预训练大型语言模型(LLM)适配到下游任务的常用策略,显著降低了内存和计算成本。然而,大多数现有的PEFT技术在所有层上均匀部署LoRA适配器,忽略了层贡献的内在异质性和任务特定的秩需求。这种均匀范式导致了冗余的参数分配和次优的适配效率。为了解决这些限制,我们提出了FLoE,一种新颖的PEFT框架,它引入了两个关键创新:(i)一种Fisher信息引导的重要性评分机制,用于动态识别任务关键的Transformer层,以进行基于MoE的低秩适配,从而实现稀疏适配器部署;(ii)一种贝叶斯优化驱动的秩分配器,可以自动确定特定数据集上的最佳LoRA秩,而无需详尽的网格搜索。在各种LLM和基准测试中进行的大量实验表明,FLoE实现了令人印象深刻的效率-精度权衡,这使得FLoE在需要快速适配的资源受限环境中特别有利。

🔬 方法详解

问题定义:现有参数高效微调(PEFT)方法,如LoRA,通常在预训练语言模型的所有层上均匀地添加适配器。这种做法忽略了不同层对于特定下游任务的重要性差异,导致了参数冗余和计算资源的浪费。此外,手动调整LoRA的秩(rank)以达到最佳性能需要大量的实验和计算资源,缺乏自动化和效率。

核心思路:FLoE的核心思路是根据Fisher信息来衡量每一层对于特定任务的重要性,并只在重要的层上部署LoRA适配器,从而实现稀疏适配。同时,利用贝叶斯优化来自动搜索每一层LoRA适配器的最佳秩,避免了手动调参的繁琐和低效。这种方法旨在在精度和效率之间取得更好的平衡。

技术框架:FLoE框架主要包含两个阶段:1) 基于Fisher信息的重要性评分:首先,计算预训练模型每一层参数的Fisher信息,以此作为该层对于特定任务的重要性的度量。然后,根据设定的稀疏度,选择Fisher信息最高的若干层进行适配。2) 基于贝叶斯优化的秩分配:对于选定的每一层,使用贝叶斯优化算法自动搜索最佳的LoRA秩。贝叶斯优化算法通过建立目标函数的概率模型,并利用采集函数来指导搜索过程,从而在较少的迭代次数内找到最优解。

关键创新:FLoE的关键创新在于结合了Fisher信息和贝叶斯优化,实现了适配器的稀疏部署和自动秩分配。与传统的PEFT方法相比,FLoE能够更有效地利用计算资源,并在精度损失较小的情况下显著降低参数量和计算成本。此外,自动秩分配避免了手动调参的繁琐,提高了适配的效率。

关键设计:Fisher信息的计算采用经验Fisher信息矩阵的对角线近似,以降低计算复杂度。贝叶斯优化采用高斯过程作为目标函数的概率模型,并使用Expected Improvement作为采集函数。稀疏度参数控制了适配器的部署比例,需要根据具体的任务和资源限制进行调整。LoRA适配器的具体实现与原始LoRA方法一致,包括两个线性层和一个缩放因子。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FLoE在多个大型语言模型和基准测试中都取得了显著的效率-精度权衡。例如,在某些任务上,FLoE可以在参数量减少50%的情况下,保持与全参数微调相当的性能。与传统的LoRA方法相比,FLoE可以在相同的参数量下,取得更高的精度。

🎯 应用场景

FLoE适用于资源受限的场景,例如边缘设备或移动设备上的模型部署。它可以加速大型语言模型在特定任务上的微调过程,降低计算成本和内存占用。此外,FLoE还可以应用于多任务学习,根据不同任务的特点,动态调整适配器的部署和秩,从而提高模型的泛化能力。

📄 摘要(原文)

Parameter-Efficient Fine-Tuning (PEFT) methods have emerged as a widely adopted strategy for adapting pre-trained Large Language Models (LLMs) to downstream tasks, significantly reducing memory and computational costs. However, most existing PEFT techniques uniformly deploy LoRA adapters across all layers, disregarding the intrinsic heterogeneity of layer contributions and task-specific rank requirements. This uniform paradigm leads to redundant parameter allocation and suboptimal adaptation efficiency. To address these limitations, we propose FLoE, a novel PEFT framework that introduces two key innovations: (i) a Fisher information-guided importance scoring mechanism to dynamically identify task-critical transformer layers for MoE-based low-rank adaptation, enabling sparse adapter deployment; and (ii) a Bayesian optimization-driven rank allocator that automatically determines optimal LoRA ranks on specific datasets without exhaustive grid search. Extensive experiments across diverse LLMs and benchmarks reveal that FLoE achieves impressive efficiency-accuracy trade-offs, making FLoE particularly advantageous in resource-constrained environments that necessitate rapid adaptation.