FALQON: Accelerating LoRA Fine-tuning with Low-Bit Floating-Point Arithmetic
作者: Kanghyun Choi, Hyeyoon Lee, SunJong Park, Dain Kwon, Jinho Lee
分类: cs.LG, cs.AI
发布日期: 2025-10-28
备注: NeurIPS 2025
🔗 代码/项目: GITHUB
💡 一句话要点
FALQON:通过低比特浮点运算加速LoRA微调,提升训练效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低比特量化 LoRA微调 模型加速 FP8 参数高效微调 大规模语言模型 量化感知训练
📋 核心要点
- 现有低比特量化方法在LoRA微调中加速效果不佳,因为量化开销抵消了小矩阵运算带来的加速。
- FALQON通过将LoRA适配器直接合并到量化的主干网络中,并优化计算流程,从而消除量化开销。
- 实验表明,FALQON在保持精度的情况下,实现了比现有量化LoRA方法快3倍的训练速度。
📝 摘要(中文)
本文提出FALQON框架,旨在解决低比特浮点(FP)格式在LoRA微调中加速效果不佳的问题。尽管FP8等格式在大型矩阵乘法中能提供显著加速和内存节省,但由于LoRA使用小维度矩阵,量化开销抵消了加速效果。FALQON通过在微调期间将LoRA适配器直接合并到FP8量化的主干网络中,消除了LoRA计算路径中的量化开销。此外,重新设计了合并适配器的前向和后向计算,显著降低了量化开销,并引入了行式代理更新机制,有效地将大量更新集成到量化的主干网络中。实验结果表明,FALQON在相似精度下,比现有量化LoRA方法实现了约3倍的训练加速,为高效的大规模模型微调提供了实用的解决方案。FALQON的端到端FP8工作流程无需训练后量化,从而简化了部署。
🔬 方法详解
问题定义:现有低比特量化方法,如FP8,在大型语言模型(LLM)微调中具有加速和节省内存的潜力。然而,当应用于低秩适应(LoRA)时,由于LoRA使用小维度矩阵,量化带来的额外开销会抵消低比特格式带来的加速效果。因此,如何在LoRA微调中有效利用低比特量化,是本文要解决的问题。
核心思路:FALQON的核心思路是通过直接将LoRA适配器合并到FP8量化的主干网络中,从而消除LoRA计算路径中的量化开销。这种方法避免了对LoRA适配器单独进行量化和反量化操作,从而减少了计算负担。
技术框架:FALQON框架包含以下几个主要步骤:1) 将LoRA适配器合并到FP8量化的主干网络中。2) 重新设计前向和后向计算,以减少量化开销。3) 引入行式代理更新机制,将更新有效地集成到量化的主干网络中。整个流程采用端到端的FP8工作流程,无需训练后量化。
关键创新:FALQON的关键创新在于:1) 直接合并LoRA适配器到量化的主干网络,避免了额外的量化开销。2) 重新设计了前向和后向计算,优化了量化过程。3) 提出了行式代理更新机制,高效地更新量化的主干网络。与现有方法相比,FALQON能够更有效地利用低比特量化加速LoRA微调。
关键设计:行式代理更新机制是FALQON的关键设计之一。该机制通过维护一个行式的代理矩阵,用于累积对量化主干网络的更新。在每次迭代中,计算LoRA适配器的更新,并将这些更新累加到代理矩阵中。然后,定期将代理矩阵中的更新合并到量化的主干网络中。这种方法避免了直接对量化的主干网络进行频繁的更新,从而减少了量化误差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FALQON在相似精度下,比现有量化LoRA方法实现了约3倍的训练加速。具体来说,FALQON在多个benchmark上都取得了显著的性能提升,证明了其在加速LoRA微调方面的有效性。此外,FALQON的端到端FP8工作流程简化了部署流程,无需额外的后训练量化步骤。
🎯 应用场景
FALQON可应用于大规模语言模型的快速高效微调,尤其是在资源受限的环境下。该技术能够降低训练成本,缩短开发周期,并促进LLM在边缘设备上的部署。未来,FALQON有望扩展到其他参数高效微调方法和模型压缩技术中。
📄 摘要(原文)
Low-bit floating-point (FP) formats, such as FP8, provide significant acceleration and memory savings in model training thanks to native hardware support on modern GPUs and NPUs. However, we analyze that FP8 quantization offers speedup primarily for large-dimensional matrix multiplications, while inherent quantization overheads diminish speedup when applied to low-rank adaptation (LoRA), which uses small-dimensional matrices for efficient fine-tuning of large language models (LLMs). To address this limitation, we propose FALQON, a novel framework that eliminates the quantization overhead from separate LoRA computational paths by directly merging LoRA adapters into an FP8-quantized backbone during fine-tuning. Furthermore, we reformulate the forward and backward computations for merged adapters to significantly reduce quantization overhead, and introduce a row-wise proxy update mechanism that efficiently integrates substantial updates into the quantized backbone. Experimental evaluations demonstrate that FALQON achieves approximately a 3$\times$ training speedup over existing quantized LoRA methods with a similar level of accuracy, providing a practical solution for efficient large-scale model fine-tuning. Moreover, FALQON's end-to-end FP8 workflow removes the need for post-training quantization, facilitating efficient deployment. Code is available at https://github.com/iamkanghyunchoi/falqon.