MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning
作者: Hanqing Wang, Yixia Li, Shuo Wang, Guanhua Chen, Yun Chen
分类: cs.CL
发布日期: 2024-06-13 (更新: 2025-03-02)
备注: This paper has been accepted at NAACL 2025. Code is available at: https://github.com/sufenlp/MiLoRA
💡 一句话要点
MiLoRA:利用次要奇异分量进行参数高效的大语言模型微调
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 大语言模型 奇异值分解 低秩适应 知识保留
📋 核心要点
- 现有LoRA方法在未引导的子空间中优化参数,可能干扰预训练权重矩阵的良好子空间。
- MiLoRA通过冻结主要奇异分量,仅更新次要奇异分量,从而在保留预训练知识的同时进行微调。
- 实验表明,MiLoRA在常识推理、数学推理、指令跟随和视觉指令跟随等任务上表现优异。
📝 摘要(中文)
本文提出MiLoRA,一种简单而有效的大语言模型微调方法,它仅更新权重矩阵的次要奇异分量,同时保持主要奇异分量冻结。观察发现,次要矩阵对应于噪声或长尾信息,而主要矩阵包含重要的知识。MiLoRA在正交于主要矩阵的子空间中初始化低秩矩阵,因此预训练知识有望得到很好的保留。在微调期间,MiLoRA充分利用欠优化的子空间来学习带标签的数据集。在常识推理、数学推理、指令跟随和视觉指令跟随基准上的大量实验表明了该方法的优越性能。
🔬 方法详解
问题定义:现有基于LoRA的参数高效微调方法,通常使用高斯分布或零值初始化低秩矩阵,并在微调过程中保持原始权重矩阵冻结。这种方法可能导致可训练参数在未充分引导的子空间中优化,从而干扰预训练权重矩阵中已经学习到的良好知识表示,影响模型性能。
核心思路:MiLoRA的核心思想是,权重矩阵的主要奇异分量包含了重要的知识,而次要奇异分量则对应于噪声或长尾信息。因此,MiLoRA选择仅更新次要奇异分量,同时冻结主要奇异分量,从而在微调过程中更好地保留预训练知识。
技术框架:MiLoRA首先对预训练模型的权重矩阵进行奇异值分解(SVD),然后将奇异值分为主要和次要两部分。接下来,MiLoRA冻结与主要奇异值对应的奇异向量,并仅更新与次要奇异值对应的奇异向量。具体来说,MiLoRA初始化一个低秩矩阵,该矩阵位于与主要奇异向量正交的子空间中。在微调过程中,MiLoRA仅更新这个低秩矩阵,并将更新后的矩阵加回到原始权重矩阵中。
关键创新:MiLoRA的关键创新在于,它不是在随机子空间中进行微调,而是选择在与主要奇异分量正交的子空间中进行微调。这种方法可以更好地保留预训练知识,并使模型能够更有效地学习新的任务。
关键设计:MiLoRA的关键设计包括:1) 使用奇异值分解来分离主要和次要奇异分量;2) 初始化低秩矩阵,使其位于与主要奇异向量正交的子空间中;3) 仅更新低秩矩阵,并将更新后的矩阵加回到原始权重矩阵中。论文中没有明确提及具体的参数设置、损失函数或网络结构,这些可能与具体的实验设置有关。
🖼️ 关键图片
📊 实验亮点
MiLoRA在常识推理、数学推理、指令跟随和视觉指令跟随等多个基准测试中表现出优越的性能。具体数据未在摘要中给出,但强调了MiLoRA相对于现有LoRA方法的显著提升。实验结果表明,MiLoRA能够更有效地利用欠优化的子空间来学习带标签的数据集。
🎯 应用场景
MiLoRA具有广泛的应用前景,可用于各种需要对大型语言模型进行微调的场景,例如自然语言处理、计算机视觉和机器人技术。该方法可以降低微调的计算和内存成本,并提高微调后的模型性能。未来,MiLoRA可以应用于更多领域,例如医疗保健、金融和教育。
📄 摘要(原文)
Efficient finetuning of large language models (LLMs) aims to adapt the LLMs with reduced computational and memory cost. Previous LoRA-based approaches initialize the low-rank matrices with Gaussian distribution and zero values while keeping the original weight matrices frozen. However, the trainable model parameters optimized in an unguided subspace might interfere with the well-learned subspace of the pretrained weight matrices. In this paper, we propose MiLoRA, a simple yet effective LLM finetuning approach that only updates the minor singular components of the weight matrix while keeping the principal singular components frozen. It is observed that the minor matrix corresponds to the noisy or long-tail information, while the principal matrix contains important knowledge. The MiLoRA initializes the low-rank matrices within a subspace that is orthogonal to the principal matrix, thus the pretrained knowledge is expected to be well preserved. During finetuning, MiLoRA makes the most use of the less-optimized subspace for learning the labeled dataset. Extensive experiments on commonsense reasoning, math reasoning, instruction following and visual instruction following benchmarks present the superior performance of our method.