RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization

作者: Xijie Huang, Zechun Liu, Shih-Yang Liu, Kwang-Ting Cheng

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-07-10 (更新: 2024-09-26)

备注: EMNLP 2024 Findings, Codes: https://github.com/HuangOwen/RoLoRA, Models: https://huggingface.co/collections/ScarletAce/rolora-66f5f228a90681c7c4512b28

🔗 代码/项目: GITHUB

💡 一句话要点

提出RoLoRA以解决LoRA方法中的激活异常问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 低秩适应 权重量化 激活异常 旋转技术 模型微调 大语言模型 多模态模型

📋 核心要点

现有的LoRA方法在应用权重-激活量化时，面临激活异常导致的性能显著下降问题。
RoLoRA通过旋转技术消除激活异常，并引入旋转感知微调以保持模型的无异常特性。
在LLaMA2-13B模型上，RoLoRA在常识推理任务中实现了相较于LoRA基线高达29.5%的绝对准确率提升。

📝 摘要（中文）

低秩适应（LoRA）作为一种代表性的参数高效微调（PEFT）方法，通过仅更新大语言模型（LLMs）中的一小部分权重显著提高了训练效率。近期，权重量化技术已被应用于LoRA方法以减少微调的内存占用。然而，将权重-激活量化应用于LoRA流程尚未得到充分探索，且我们观察到由于激活异常的存在，性能显著下降。本文提出RoLoRA，这是首个基于LoRA的有效权重-激活量化方案。RoLoRA利用旋转消除异常，并提出旋转感知微调以保持旋转LLMs中的无异常特性。实验结果表明，RoLoRA在权重-激活设置中一致性地提高了低比特LoRA的收敛性和后训练量化的鲁棒性。

🔬 方法详解

问题定义：本文旨在解决在LoRA方法中应用权重-激活量化时，由于激活异常导致的性能下降问题。现有方法未能有效处理这些异常，影响了模型的整体性能。

核心思路：RoLoRA的核心思路是通过旋转技术消除激活异常，并结合旋转感知微调，以确保模型在量化后仍能保持良好的性能。这种设计旨在提升低比特量化的收敛性和鲁棒性。

技术框架：RoLoRA的整体架构包括两个主要模块：首先是旋转处理模块，用于消除激活异常；其次是旋转感知微调模块，确保模型在量化过程中保持无异常特性。整个流程通过这两个模块的协同作用来实现高效的权重-激活量化。

关键创新：RoLoRA的最重要创新在于首次将旋转技术应用于LoRA的权重-激活量化中，显著改善了模型在低比特量化下的性能。这一方法与传统的LoRA方法在处理激活异常的方式上存在本质区别。

关键设计：在RoLoRA中，关键参数设置包括旋转角度的选择和微调策略的设计。此外，损失函数的调整也考虑了激活异常的影响，以确保模型在训练过程中的稳定性和收敛性。

🖼️ 关键图片

📊 实验亮点

RoLoRA在LLaMA2-13B模型上实现了相较于LoRA基线高达29.5%的绝对准确率提升，特别是在常识推理任务中表现突出。此外，该方法在LLaMA3-8B和大型多模态模型LLaVA-1.5-7B上也展现了良好的效果，验证了其广泛适用性。

🎯 应用场景

RoLoRA的研究成果在大语言模型的微调和量化过程中具有广泛的应用潜力，尤其是在资源受限的环境中。其有效的权重-激活量化方案能够帮助开发更高效的模型，适用于移动设备和边缘计算等场景，未来可能推动智能应用的普及与发展。

📄 摘要（原文）

Low-Rank Adaptation (LoRA), as a representative Parameter-Efficient Fine-Tuning (PEFT)method, significantly enhances the training efficiency by updating only a small portion of the weights in Large Language Models (LLMs). Recently, weight-only quantization techniques have also been applied to LoRA methods to reduce the memory footprint of fine-tuning. However, applying weight-activation quantization to the LoRA pipeline is under-explored, and we observe substantial performance degradation primarily due to the presence of activation outliers. In this work, we propose RoLoRA, the first LoRA-based scheme for effective weight-activation quantization. RoLoRA utilizes rotation for outlier elimination and proposes rotation-aware fine-tuning to preserve the outlier-free characteristics in rotated LLMs. Experimental results show RoLoRA consistently improves low-bit LoRA convergence and post-training quantization robustness in weight-activation settings. We evaluate RoLoRA across LLaMA2-7B/13B, LLaMA3-8B models, achieving up to 29.5% absolute accuracy gain of 4-bit weight-activation quantized LLaMA2- 13B on commonsense reasoning tasks compared to LoRA baseline. We further demonstrate its effectiveness on Large Multimodal Models (LLaVA-1.5-7B). Codes are available at https://github.com/HuangOwen/RoLoRA

RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理