RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization

📄 arXiv: 2407.08044v2 📥 PDF

作者: Xijie Huang, Zechun Liu, Shih-Yang Liu, Kwang-Ting Cheng

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-07-10 (更新: 2024-09-26)

备注: EMNLP 2024 Findings, Codes: https://github.com/HuangOwen/RoLoRA, Models: https://huggingface.co/collections/ScarletAce/rolora-66f5f228a90681c7c4512b28

🔗 代码/项目: GITHUB


💡 一句话要点

提出RoLoRA以解决LoRA方法中的激活异常问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩适应 权重量化 激活异常 旋转技术 模型微调 大语言模型 多模态模型

📋 核心要点

  1. 现有的LoRA方法在应用权重-激活量化时,面临激活异常导致的性能显著下降问题。
  2. RoLoRA通过旋转技术消除激活异常,并引入旋转感知微调以保持模型的无异常特性。
  3. 在LLaMA2-13B模型上,RoLoRA在常识推理任务中实现了相较于LoRA基线高达29.5%的绝对准确率提升。

📝 摘要(中文)

低秩适应(LoRA)作为一种代表性的参数高效微调(PEFT)方法,通过仅更新大语言模型(LLMs)中的一小部分权重显著提高了训练效率。近期,权重量化技术已被应用于LoRA方法以减少微调的内存占用。然而,将权重-激活量化应用于LoRA流程尚未得到充分探索,且我们观察到由于激活异常的存在,性能显著下降。本文提出RoLoRA,这是首个基于LoRA的有效权重-激活量化方案。RoLoRA利用旋转消除异常,并提出旋转感知微调以保持旋转LLMs中的无异常特性。实验结果表明,RoLoRA在权重-激活设置中一致性地提高了低比特LoRA的收敛性和后训练量化的鲁棒性。

🔬 方法详解

问题定义:本文旨在解决在LoRA方法中应用权重-激活量化时,由于激活异常导致的性能下降问题。现有方法未能有效处理这些异常,影响了模型的整体性能。

核心思路:RoLoRA的核心思路是通过旋转技术消除激活异常,并结合旋转感知微调,以确保模型在量化后仍能保持良好的性能。这种设计旨在提升低比特量化的收敛性和鲁棒性。

技术框架:RoLoRA的整体架构包括两个主要模块:首先是旋转处理模块,用于消除激活异常;其次是旋转感知微调模块,确保模型在量化过程中保持无异常特性。整个流程通过这两个模块的协同作用来实现高效的权重-激活量化。

关键创新:RoLoRA的最重要创新在于首次将旋转技术应用于LoRA的权重-激活量化中,显著改善了模型在低比特量化下的性能。这一方法与传统的LoRA方法在处理激活异常的方式上存在本质区别。

关键设计:在RoLoRA中,关键参数设置包括旋转角度的选择和微调策略的设计。此外,损失函数的调整也考虑了激活异常的影响,以确保模型在训练过程中的稳定性和收敛性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RoLoRA在LLaMA2-13B模型上实现了相较于LoRA基线高达29.5%的绝对准确率提升,特别是在常识推理任务中表现突出。此外,该方法在LLaMA3-8B和大型多模态模型LLaVA-1.5-7B上也展现了良好的效果,验证了其广泛适用性。

🎯 应用场景

RoLoRA的研究成果在大语言模型的微调和量化过程中具有广泛的应用潜力,尤其是在资源受限的环境中。其有效的权重-激活量化方案能够帮助开发更高效的模型,适用于移动设备和边缘计算等场景,未来可能推动智能应用的普及与发展。

📄 摘要(原文)

Low-Rank Adaptation (LoRA), as a representative Parameter-Efficient Fine-Tuning (PEFT)method, significantly enhances the training efficiency by updating only a small portion of the weights in Large Language Models (LLMs). Recently, weight-only quantization techniques have also been applied to LoRA methods to reduce the memory footprint of fine-tuning. However, applying weight-activation quantization to the LoRA pipeline is under-explored, and we observe substantial performance degradation primarily due to the presence of activation outliers. In this work, we propose RoLoRA, the first LoRA-based scheme for effective weight-activation quantization. RoLoRA utilizes rotation for outlier elimination and proposes rotation-aware fine-tuning to preserve the outlier-free characteristics in rotated LLMs. Experimental results show RoLoRA consistently improves low-bit LoRA convergence and post-training quantization robustness in weight-activation settings. We evaluate RoLoRA across LLaMA2-7B/13B, LLaMA3-8B models, achieving up to 29.5% absolute accuracy gain of 4-bit weight-activation quantized LLaMA2- 13B on commonsense reasoning tasks compared to LoRA baseline. We further demonstrate its effectiveness on Large Multimodal Models (LLaVA-1.5-7B). Codes are available at https://github.com/HuangOwen/RoLoRA