Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking

📄 arXiv: 2505.22922v1 📥 PDF

作者: Athanasios Glentis, Jiaxiang Li, Qiulin Shang, Andi Han, Ioannis Tsaknakis, Quan Wei, Mingyi Hong

分类: cs.LG, cs.AI

发布日期: 2025-05-28


💡 一句话要点

针对LLM预训练,提出权重重构和动量重置技术,提升参数效率和降低内存需求。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 预训练 参数高效 内存高效 低秩方法 权重重构 动量重置

📋 核心要点

  1. 现有LLM预训练面临内存和计算资源巨大挑战,参数高效方法在预训练中的应用仍有不足。
  2. 通过权重重构和动量重置,提升低秩预训练方法性能,使其逼近全秩训练效果。
  3. 实验表明,所提方法在1B模型上,以更低内存消耗实现了比肩甚至超越现有内存高效算法的性能。

📝 摘要(中文)

大型语言模型(LLM)在多个领域展现出卓越能力,其规模也以前所未有的速度增长,一些最新模型包含数万亿参数。这种增长带来了巨大的计算挑战,尤其是在训练和微调所需的内存和计算资源方面。虽然LoRA等方法在微调方面有效,但由于需要学习大量数据集,它们在预训练中的应用更具挑战性。本文旨在探讨:参数或内存高效方法能否在提升预训练效率的同时,达到与全模型训练相当的性能?如何缩小性能差距?为此,本文进行了高效预训练方法的全面综述和基准评估,发现通过适当选择优化器和超参数,全秩训练能够实现最佳性能。此外,在低秩方法中加入高秩更新是提高性能的关键。最后,本文提出了权重重构和动量重置两种实用技术,以增强高效预训练方法的性能。实验表明,将这些技术应用于低秩方法(在1B模型上)可以实现比GaLore和Fira等流行的内存高效算法更低的困惑度,同时减少约25%的内存使用。

🔬 方法详解

问题定义:现有大型语言模型(LLM)的预训练需要消耗大量的计算资源和内存,尤其是在处理海量数据集时。现有的参数高效方法,如LoRA,虽然在微调阶段表现良好,但在预训练阶段的性能提升有限,无法达到与全模型训练相当的水平。因此,如何提升预训练效率,同时降低内存需求,是一个亟待解决的问题。

核心思路:本文的核心思路是通过改进低秩预训练方法,使其在参数效率和性能之间取得更好的平衡。具体而言,通过引入高秩更新的思想,并结合权重重构和动量重置等技术,来增强低秩方法的表达能力和优化效果,从而使其能够逼近全秩训练的性能。

技术框架:本文主要包含三个部分:首先,对现有的高效预训练方法进行综述;其次,对几种代表性的内存高效预训练方法进行基准评估;最后,提出两种新的技术,即权重重构和动量重置,并将其应用于低秩方法中。整体流程是:分析现有方法的不足 -> 提出改进策略 -> 设计实验验证改进效果。

关键创新:本文的关键创新在于提出了权重重构和动量重置两种实用技术,用于增强低秩预训练方法的性能。权重重构旨在通过调整权重矩阵的结构,提高模型的表达能力;动量重置则通过在训练过程中周期性地重置动量,来避免模型陷入局部最优解。

关键设计:权重重构的具体实现方式未知,论文中没有详细描述。动量重置的关键参数是重置的周期和重置的幅度,这些参数需要根据具体的模型和数据集进行调整。此外,优化器的选择和超参数的设置也会对最终的性能产生重要影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,将权重重构和动量重置技术应用于1B参数的低秩模型,可以实现比GaLore和Fira等流行的内存高效算法更低的困惑度,同时减少约25%的内存使用。这表明所提出的方法在参数效率和性能之间取得了良好的平衡。

🎯 应用场景

该研究成果可应用于各种需要大规模预训练的自然语言处理任务,例如文本生成、机器翻译、文本摘要等。通过降低预训练所需的计算资源和内存,可以使得更多的研究者和开发者能够参与到LLM的预训练中,从而推动LLM技术的发展和应用。

📄 摘要(原文)

Fueled by their remarkable ability to tackle diverse tasks across multiple domains, large language models (LLMs) have grown at an unprecedented rate, with some recent models containing trillions of parameters. This growth is accompanied by substantial computational challenges, particularly regarding the memory and compute resources required for training and fine-tuning. Numerous approaches have been explored to address these issues, such as LoRA. While these methods are effective for fine-tuning, their application to pre-training is significantly more challenging due to the need to learn vast datasets. Motivated by this issue, we aim to address the following questions: Can parameter- or memory-efficient methods enhance pre-training efficiency while achieving performance comparable to full-model training? How can the performance gap be narrowed? To this end, the contributions of this work are the following. (1) We begin by conducting a comprehensive survey that summarizes state-of-the-art methods for efficient pre-training. (2) We perform a benchmark evaluation of several representative memory efficient pre-training approaches to comprehensively evaluate their performance across model sizes. We observe that with a proper choice of optimizer and hyperparameters, full-rank training delivers the best performance, as expected. We also notice that incorporating high-rank updates in low-rank approaches is the key to improving their performance. (3) Finally, we propose two practical techniques, namely weight refactorization and momentum reset, to enhance the performance of efficient pre-training methods. We observe that applying these techniques to the low-rank method (on a 1B model) can achieve a lower perplexity than popular memory efficient algorithms such as GaLore and Fira, while simultaneously using about 25% less memory.