Random Masking Finds Winning Tickets for Parameter Efficient Fine-tuning
作者: Jing Xu, Jingzhao Zhang
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-05-04
备注: ICML 2024
💡 一句话要点
提出随机掩码方法,以更少参数高效微调大型语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 随机掩码 大型语言模型 模型微调 损失面
📋 核心要点
- 大型语言模型微调成本高昂,参数高效微调(PEFT)旨在减少训练参数量,但仍有进一步简化的空间。
- 论文提出随机掩码方法,通过随机屏蔽部分参数,并配合较大的学习率,实现高效的模型微调。
- 实验表明,随机掩码方法在减少可训练参数的同时,能够媲美甚至超越LoRA等标准PEFT算法的性能。
📝 摘要(中文)
微调大型语言模型(LLM)的成本可能很高。参数高效微调(PEFT)通过训练一小部分参数来解决这个问题,其成功揭示了预训练模型的表达能力和灵活性。本文研究了PEFT的极限,通过进一步简化其设计并减少可训练参数的数量,使其超出标准设置。为此,我们使用随机掩码来微调预训练模型。尽管其简单性,我们表明随机掩码非常有效:通过使用比预期更大的学习率,随机掩码可以在各种任务上匹配标准PEFT算法(如LoRA)的性能,同时使用更少的可训练参数。我们对随机掩码的成功进行了经验和理论探索。我们表明,掩码会诱导更平坦的损失面和更远距离的解决方案,这允许并需要更大的学习率。
🔬 方法详解
问题定义:论文旨在解决大型语言模型微调过程中参数量大、计算成本高的问题。现有的参数高效微调方法(如LoRA)虽然减少了训练参数,但仍然存在进一步优化的空间,能否在更极端的情况下,仅训练极少量的参数,依然保持甚至提升模型性能?
核心思路:论文的核心思路是利用随机掩码(Random Masking)来选择性地训练模型参数。通过随机地屏蔽掉一部分参数,只更新未被屏蔽的参数,从而大幅减少需要训练的参数量。同时,论文发现配合较大的学习率可以获得更好的性能。
技术框架:该方法直接应用于预训练语言模型的微调过程。具体来说,在每个训练迭代中,首先随机生成一个掩码,然后将该掩码应用于模型的参数。只有未被掩码屏蔽的参数才会被更新。整个流程与标准的微调流程类似,只是在参数更新前增加了一个随机掩码的步骤。
关键创新:该方法最重要的创新点在于其简洁性和有效性。与现有的PEFT方法相比,随机掩码不需要引入额外的参数或复杂的网络结构,只需要一个随机生成的掩码即可。此外,论文还发现,随机掩码可以诱导更平坦的损失面,从而允许使用更大的学习率,进一步提升模型性能。
关键设计:关键设计包括:1)掩码的生成方式:论文采用均匀分布随机生成掩码,控制被屏蔽的参数比例。2)学习率的选择:论文发现,随机掩码方法需要配合较大的学习率才能获得最佳性能。3)实验中,作者探索了不同的掩码比例和学习率,以找到最佳的参数组合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,随机掩码方法在各种任务上都取得了令人瞩目的性能。例如,在某些任务上,使用随机掩码方法,仅训练不到1%的参数,就可以达到与LoRA等标准PEFT算法相当甚至更好的性能。此外,论文还通过实验验证了随机掩码方法可以诱导更平坦的损失面,从而允许使用更大的学习率。
🎯 应用场景
该研究成果可广泛应用于各种需要对大型语言模型进行微调的场景,尤其是在计算资源有限的情况下。例如,在移动设备或边缘设备上部署大型语言模型时,可以使用随机掩码方法来减少模型的大小和计算量,从而提高模型的推理速度和效率。此外,该方法还可以用于加速模型训练,降低训练成本。
📄 摘要(原文)
Fine-tuning large language models (LLM) can be costly. Parameter-efficient fine-tuning (PEFT) addresses the problems by training a fraction of the parameters, whose success reveals the expressiveness and flexibility of pretrained models. This paper studies the limit of PEFT, by further simplifying its design and reducing the number of trainable parameters beyond standard setups. To this end, we use Random Masking to fine-tune the pretrained model. Despite its simplicity, we show that Random Masking is surprisingly effective: with a larger-than-expected learning rate, Random Masking can match the performance of standard PEFT algorithms such as LoRA on various tasks, using fewer trainable parameters. We provide both empirical and theoretical explorations into the success of Random Masking. We show that masking induces a flatter loss landscape and more distant solutions, which allows for and necessitates large learning rates.