LoRAQuant: Mixed-Precision Quantization of LoRA to Ultra-Low Bits
作者: Amir Reza Mirzaei, Yuqiao Wen, Yanshuai Cao, Lili Mou
分类: cs.LG
发布日期: 2025-10-30 (更新: 2025-11-07)
💡 一句话要点
LoRAQuant:面向LoRA的混合精度量化方法,实现超低比特量化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LoRA 量化 混合精度量化 参数高效微调 奇异值分解
📋 核心要点
- 现有LoRA方法在同时加载多个适配器时,总成本显著增加,限制了其在资源受限场景下的应用。
- LoRAQuant通过SVD分解LoRA适配器,将重要信息集中,实现混合精度量化,降低整体比特需求。
- 实验表明,LoRAQuant在保持甚至提升性能的同时,显著降低了量化比特数,适用于多种LLM和任务。
📝 摘要(中文)
低秩适应(LoRA)已成为大规模语言模型(LLM)参数高效微调的热门技术。在许多实际场景中,需要同时加载多个适配器,以实现LLM的定制化,从而提供个性化的用户体验或支持各种不同的任务。虽然每个适配器单独来看都很轻量,但它们的总体成本在规模上变得相当可观。为了解决这个问题,我们提出了LoRAQuant,这是一种专为LoRA设计的混合精度后训练量化方法。具体来说,LoRAQuant通过奇异值分解(SVD)重新参数化每个适配器,将最重要的信息集中到特定的行和列中。这使得可以将重要的组件量化到更高的精度,而将其余部分量化到超低比特宽度。我们使用LLaMA 2-7B、LLaMA 2-13B和Mistral 7B模型在数学推理、编码和摘要任务上进行了全面的实验。结果表明,我们的LoRAQuant比其他量化方法使用明显更低的比特数,但实现了相当甚至更高的性能。
🔬 方法详解
问题定义:论文旨在解决大规模语言模型微调中,LoRA适配器数量增加导致的存储和计算成本问题。现有方法在量化LoRA时,通常采用统一的量化方案,无法有效区分不同LoRA参数的重要性,导致量化后性能下降或比特数较高。
核心思路:LoRAQuant的核心思路是利用SVD分解LoRA适配器,将重要信息集中到少数行和列中。然后,对这些重要部分采用高精度量化,而对剩余部分采用超低比特量化,从而在保证性能的同时,显著降低整体比特数。
技术框架:LoRAQuant的整体流程如下:1) 对LoRA适配器进行SVD分解;2) 根据奇异值的重要性,确定需要高精度量化的行和列;3) 对重要部分进行高精度量化,对剩余部分进行超低比特量化;4) 将量化后的LoRA适配器加载到LLM中进行推理。
关键创新:LoRAQuant的关键创新在于混合精度量化策略,它能够根据LoRA参数的重要性,自适应地分配量化比特数。与传统的均匀量化方法相比,LoRAQuant能够更好地保留LoRA适配器中的重要信息,从而在更低的比特数下实现更高的性能。
关键设计:论文的关键设计包括:1) 使用SVD分解LoRA适配器,提取重要特征;2) 基于奇异值大小确定高精度量化和低精度量化的阈值;3) 探索不同的量化比特数组合,以找到最佳的性能-比特数平衡点;4) 针对不同的LLM和任务,进行超参数调优。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LoRAQuant在LLaMA 2-7B、LLaMA 2-13B和Mistral 7B模型上,相比于其他量化方法,能够使用更低的比特数(例如,低至2比特甚至更低),同时保持甚至提升在数学推理、编码和摘要等任务上的性能。例如,在某些任务上,LoRAQuant在4比特量化下,性能优于其他方法的8比特量化。
🎯 应用场景
LoRAQuant适用于资源受限的边缘设备或云端服务器,可用于部署多个LoRA适配器,实现个性化用户体验或支持多样化的任务。该技术可以降低模型存储空间和计算成本,加速推理速度,并为大规模语言模型的广泛应用提供支持。未来,LoRAQuant可以扩展到其他参数高效微调方法,并与其他模型压缩技术相结合,进一步提升模型效率。
📄 摘要(原文)
Low-Rank Adaptation (LoRA) has become a popular technique for parameter-efficient fine-tuning of large language models (LLMs). In many real-world scenarios, multiple adapters are loaded simultaneously to enable LLM customization for personalized user experiences or to support a diverse range of tasks. Although each adapter is lightweight in isolation, their aggregate cost becomes substantial at scale. To address this, we propose LoRAQuant, a mixed-precision post-training quantization method tailored to LoRA. Specifically, LoRAQuant reparameterizes each adapter by singular value decomposition (SVD) to concentrate the most important information into specific rows and columns. This makes it possible to quantize the important components to higher precision, while quantizing the rest to ultra-low bitwidth. We conduct comprehensive experiments with LLaMA 2-7B, LLaMA 2-13B, and Mistral 7B models on mathematical reasoning, coding, and summarization tasks. Results show that our LoRAQuant uses significantly lower bits than other quantization methods, but achieves comparable or even higher performance.