LESA: Learnable LLM Layer Scaling-Up
作者: Yifei Yang, Zouying Cao, Xinbei Ma, Yao Yao, Libo Qin, Zhi Chen, Hai Zhao
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-02-19
💡 一句话要点
提出LESA以解决大规模语言模型训练成本高的问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大规模语言模型 深度学习 参数学习 奇异值分解 模型扩展 计算效率 自然语言处理
📋 核心要点
- 现有的深度扩展方法依赖经验启发式规则,导致模型初始化不佳和收敛速度慢。
- LESA通过连接层参数并应用奇异值分解,学习层间参数,从而改善初始化和训练效率。
- 实验结果显示,LESA在持续预训练中以不到一半的计算成本实现了优于现有方法的性能。
📝 摘要(中文)
从零开始训练大型语言模型(LLMs)需要巨大的计算资源,成本极高。模型的深度扩展提供了一种有前景的解决方案,通过利用小模型的参数来创建更大的模型。然而,现有的深度扩展方法依赖于经验启发式规则进行层复制,导致初始化较差和持续预训练时收敛速度慢。我们提出了LESA,一种新颖的可学习深度扩展方法。通过连接每层的参数并应用奇异值分解,我们揭示了层之间的潜在模式,表明层间参数可以被学习。LESA使用神经网络预测相邻层之间插入的参数,从而实现更好的初始化和更快的训练。实验表明,LESA在持续预训练中以不到一半的计算成本超越了现有基线,广泛分析证明其在不同模型规模和任务上的有效性。
🔬 方法详解
问题定义:本论文旨在解决大型语言模型训练中的高计算成本问题。现有方法在层复制时依赖经验规则,导致模型初始化不佳和收敛速度缓慢。
核心思路:LESA的核心思路是通过连接每层的参数并应用奇异值分解,揭示层间的潜在模式,从而学习层间参数。这种方法能够改善模型的初始化,进而加快训练过程。
技术框架:LESA的整体架构包括参数连接、奇异值分解和神经网络预测模块。首先,将每层的参数连接在一起,然后通过奇异值分解提取潜在模式,最后利用神经网络预测相邻层之间的插入参数。
关键创新:LESA的主要创新在于其可学习的深度扩展方法,与现有方法的本质区别在于不再依赖经验规则,而是通过学习来优化层间参数的初始化。
关键设计:在设计中,LESA采用了特定的损失函数来优化参数预测,并使用了适当的网络结构以确保模型的有效性和效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LESA在持续预训练中以不到一半的计算成本实现了优于现有基线的性能,具体表现为在多个任务上提升了模型的准确性和收敛速度,显示出其在不同模型规模下的有效性。
🎯 应用场景
LESA的研究成果在多个领域具有潜在应用价值,尤其是在需要训练大型语言模型的自然语言处理任务中。通过降低计算成本,LESA能够使更多的研究机构和企业能够负担得起大规模模型的训练,从而推动相关技术的发展和应用。
📄 摘要(原文)
Training Large Language Models (LLMs) from scratch requires immense computational resources, making it prohibitively expensive. Model scaling-up offers a promising solution by leveraging the parameters of smaller models to create larger ones. However, existing depth scaling-up methods rely on empirical heuristic rules for layer duplication, which result in poorer initialization and slower convergence during continual pre-training. We propose \textbf{LESA}, a novel learnable method for depth scaling-up. By concatenating parameters from each layer and applying Singular Value Decomposition, we uncover latent patterns between layers, suggesting that inter-layer parameters can be learned. LESA uses a neural network to predict the parameters inserted between adjacent layers, enabling better initialization and faster training. Experiments show that LESA outperforms existing baselines, achieving superior performance with less than half the computational cost during continual pre-training. Extensive analyses demonstrate its effectiveness across different model sizes and tasks.