Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis

📄 arXiv: 2505.14742v2 📥 PDF

作者: Hong Huang, Dapeng Wu

分类: cs.LG, cs.AI

发布日期: 2025-05-20 (更新: 2025-05-29)

备注: Accepted by ACL 2025

🔗 代码/项目: GITHUB


💡 一句话要点

Quaff:基于异常值空间稳定性假设的量化参数高效微调框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量化微调 参数高效微调 大型语言模型 异常值处理 空间稳定性

📋 核心要点

  1. 现有量化微调方法难以兼顾性能与开销,无法有效处理激活中的异常值,成为性能瓶颈。
  2. Quaff基于提出的异常值空间稳定性假设(OSSH),通过动量缩放优化低精度激活表示,抑制不变通道中的异常值。
  3. 实验表明,Quaff在GPQA推理基准上,显著降低了延迟和内存占用,同时提升了模型准确率。

📝 摘要(中文)

大型语言模型(LLMs)在各个领域取得了令人兴奋的成就,但由于特定任务微调对计算和内存的巨大需求,它们在资源受限的个人设备上的部署仍然受到阻碍。虽然量化提供了一条提高效率的途径,但现有方法难以平衡性能和开销,要么产生高计算/内存成本,要么无法解决激活异常值问题,这是量化微调中的一个关键瓶颈。为了应对这些挑战,我们提出了异常值空间稳定性假设(OSSH):在微调过程中,某些激活异常值通道在训练迭代中保持稳定的空间位置。基于OSSH,我们提出了Quaff,一个用于LLMs的量化参数高效微调框架,通过有针对性的动量缩放来优化低精度激活表示。Quaff使用轻量级操作动态抑制不变通道中的异常值,消除了全精度权重存储和全局重新缩放,同时减少了量化误差。在十个基准上的大量实验验证了OSSH并证明了Quaff的有效性。具体来说,在GPQA推理基准上,Quaff在Phi-3模型上实现了1.73倍的延迟降低和30%的内存节省,同时提高了0.6%的准确率,从而协调了效率、性能和可部署性之间的三重权衡。通过在不牺牲模型效用的情况下实现消费级GPU微调(例如,RTX 2080 Super),Quaff普及了个性化LLM部署。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在资源受限设备上部署时,微调过程计算和内存需求过高的问题。现有的量化方法要么计算开销大,要么无法有效处理激活中的异常值,导致性能下降。

核心思路:论文的核心思路是观察到激活异常值在微调过程中存在空间稳定性,即某些异常值通道在训练迭代中保持稳定的空间位置。基于此,可以通过有选择性地抑制这些稳定位置的异常值,来降低量化误差,从而提高量化微调的性能。

技术框架:Quaff框架主要包含以下几个阶段:1) 量化模型权重和激活;2) 基于OSSH识别具有稳定空间位置的异常值通道;3) 使用动量缩放策略,动态抑制这些通道中的异常值;4) 进行微调训练。该框架避免了全精度权重存储和全局重新缩放,从而降低了计算和内存开销。

关键创新:论文最重要的技术创新点是提出了异常值空间稳定性假设(OSSH),并基于此设计了Quaff框架。与现有方法相比,Quaff能够更有效地处理量化微调中的激活异常值问题,同时降低计算和内存开销。

关键设计:Quaff的关键设计包括:1) 使用动量缩放系数来控制异常值的抑制程度,该系数根据训练迭代动态调整;2) 设计了一种轻量级的操作来识别具有稳定空间位置的异常值通道;3) 避免使用全精度权重存储和全局重新缩放,从而降低了计算和内存开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Quaff在GPQA推理基准上,使用Phi-3模型实现了1.73倍的延迟降低和30%的内存节省,同时提高了0.6%的准确率。实验结果表明,Quaff能够在效率、性能和可部署性之间取得良好的平衡,使得在消费级GPU(如RTX 2080 Super)上进行LLM微调成为可能。

🎯 应用场景

Quaff框架可应用于各种需要将大型语言模型部署到资源受限设备上的场景,例如移动设备、嵌入式系统和边缘计算设备。通过降低微调的计算和内存需求,Quaff使得在这些设备上进行个性化模型定制成为可能,从而提升用户体验和应用价值。该研究有助于推动LLM在更广泛领域的应用。

📄 摘要(原文)

Large language models (LLMs) have made exciting achievements across various domains, yet their deployment on resource-constrained personal devices remains hindered by the prohibitive computational and memory demands of task-specific fine-tuning. While quantization offers a pathway to efficiency, existing methods struggle to balance performance and overhead, either incurring high computational/memory costs or failing to address activation outliers, a critical bottleneck in quantized fine-tuning. To address these challenges, we propose the Outlier Spatial Stability Hypothesis (OSSH): During fine-tuning, certain activation outlier channels retain stable spatial positions across training iterations. Building on OSSH, we propose Quaff, a Quantized parameter-efficient fine-tuning framework for LLMs, optimizing low-precision activation representations through targeted momentum scaling. Quaff dynamically suppresses outliers exclusively in invariant channels using lightweight operations, eliminating full-precision weight storage and global rescaling while reducing quantization errors. Extensive experiments across ten benchmarks validate OSSH and demonstrate Quaff's efficacy. Specifically, on the GPQA reasoning benchmark, Quaff achieves a 1.73x latency reduction and 30% memory savings over full-precision fine-tuning while improving accuracy by 0.6% on the Phi-3 model, reconciling the triple trade-off between efficiency, performance, and deployability. By enabling consumer-grade GPU fine-tuning (e.g., RTX 2080 Super) without sacrificing model utility, Quaff democratizes personalized LLM deployment. The code is available at https://github.com/Little0o0/Quaff.git.