FLoRA: Fused forward-backward adapters for parameter efficient fine-tuning and reducing inference-time latencies of LLMs

📄 arXiv: 2511.00050v1 📥 PDF

作者: Dhananjaya Gowda, Seoha Song, Junhyun Lee, Harshith Goka

分类: cs.LG, cs.AI

发布日期: 2025-10-28


💡 一句话要点

FLoRA:融合前向-后向适配器,提升LLM微调效率并降低推理延迟

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 大型语言模型 低秩适配器 推理延迟 前向-后向适配器

📋 核心要点

  1. 现有参数高效微调方法(如LoRA)虽然有效,但仍有探索空间,尤其是在精度和推理延迟的平衡上。
  2. FLoRA通过融合前向和后向适配器,结合LoRA和并行适配器的优点,旨在提升微调精度并降低推理延迟。
  3. 实验结果表明,FLoRA在相似参数量下,相比LoRA在精度和推理速度上均有显著提升。

📝 摘要(中文)

随着大型语言模型(LLM)的规模日益增长,高效的训练和微调变得至关重要。这激发了人们对参数高效微调(PEFT)的极大兴趣,并涌现出诸如低秩适配器(LoRA)等有效方法。尽管近年来对各种PEFT方法进行了广泛研究,但在巨大的自由度下,该主题的很大一部分仍未被探索。本文提出了FLoRA,一种融合前向-后向适配器(FFBA)系列,用于在下游任务上对LLM进行参数高效微调。FFBA结合了流行的LoRA和并行适配器的思想,以提高整体微调精度。同时,通过将前向和后向适配器融合到基础模型的现有投影层中,最大限度地减少了延迟。实验结果表明,对于相似的参数预算,所提出的FFBA在精度和延迟方面均优于常用的LoRA。

🔬 方法详解

问题定义:现有参数高效微调方法,如LoRA,虽然减少了微调参数量,但在精度和推理延迟方面仍有改进空间。尤其是在实际部署时,推理延迟是一个重要的考量因素。

核心思路:FLoRA的核心思路是融合前向和后向适配器,并将其集成到基础模型的现有投影层中。通过这种融合,既能提升微调精度,又能减少推理时的额外计算开销,从而降低延迟。

技术框架:FLoRA的技术框架主要包括:1) 前向适配器:类似于LoRA,用于在模型前向传播过程中引入可学习的低秩矩阵;2) 后向适配器:在反向传播过程中引入额外的梯度信息,以更好地调整模型参数;3) 融合机制:将前向和后向适配器融合到基础模型的现有投影层中,避免推理时引入额外的计算层。

关键创新:FLoRA的关键创新在于融合前向和后向适配器的思想,并将其无缝集成到基础模型中。与LoRA等方法相比,FLoRA不仅考虑了参数效率,还优化了推理延迟。

关键设计:FLoRA的关键设计包括:1) 适配器的低秩分解:使用低秩矩阵来减少适配器的参数量;2) 融合策略:设计合适的融合策略,将适配器参数集成到基础模型的投影层中,避免引入额外的计算开销;3) 损失函数:使用标准的交叉熵损失函数进行微调。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在相似的参数预算下,FLoRA在精度和延迟方面均优于常用的LoRA。具体来说,FLoRA在多个下游任务上取得了显著的精度提升,同时推理延迟也得到了有效降低。这些结果验证了FLoRA在参数高效微调和降低推理延迟方面的有效性。

🎯 应用场景

FLoRA适用于各种需要高效微调和低延迟推理的大型语言模型应用场景,例如:智能客服、机器翻译、文本生成等。该方法可以帮助企业在资源有限的情况下,快速定制和部署高性能的LLM应用,并降低运营成本。未来,FLoRA有望成为LLM高效微调的标准方法之一。

📄 摘要(原文)

As the large language models (LLMs) grow in size each day, efficient training and fine-tuning has never been as important as nowadays. This resulted in the great interest in parameter efficient fine-tuning (PEFT), and effective methods including low-rank adapters (LoRA) has emerged. Although the various PEFT methods have been studied extensively in the recent years, the greater part of the subject remains unexplored with the huge degree of freedom. In this paper, we propose FLoRA, a family of fused forward-backward adapters (FFBA) for parameter-efficient fine-tuning of LLMs on downstream tasks. The FFBA combine ideas from the popular LoRA and parallel adapters to improve the overall fine-tuning accuracies. At the same time, latencies are minimized by fusing the forward and backward adapters into existing projection layers of the base model. Experimental results show that the proposed FFB adapters perform significantly better than the popularly used LoRA in both accuracy and latency for a similar parameter budget.