Scaling Inference-Efficient Language Models

📄 arXiv: 2501.18107v2 📥 PDF

作者: Song Bian, Minghao Yan, Shivaram Venkataraman

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-01-30 (更新: 2025-06-07)

备注: 21 pages, 18 figures, ICML 2025


💡 一句话要点

提出推理效率感知的缩放法则,优化模型架构以提升大语言模型推理速度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 缩放法则 推理效率 模型架构 模型训练

📋 核心要点

  1. 现有大语言模型缩放法则忽略了推理成本,导致模型架构对推理延迟影响显著。
  2. 论文修改Chinchilla缩放法则,协同优化模型参数、训练tokens和模型架构,提升推理效率。
  3. 实验表明,更宽更浅的模型在保持准确率的同时,能有效提升推理效率,并发布了Morph-1B模型。

📝 摘要(中文)

缩放法则(Scaling laws)是预测大型语言模型性能的强大工具。然而,现有的缩放法则未能充分考虑推理成本。本文首先表明,模型架构会影响推理延迟,相同大小的模型延迟差异可达3.5倍。为了解决这一挑战,我们修改了Chinchilla缩放法则,以协同优化模型参数量、训练tokens数量和模型架构。由于训练损失相似的模型在下游评估中存在差距,我们还提出了一种基于修正缩放法则训练推理高效模型的新方法。我们进行了广泛的实验研究,以拟合和评估我们的推理感知缩放法则,模型参数从80M到1B,训练tokens从1.6B到30B,并改变模型形状,共训练了63个模型。在推理高效缩放法则和模型选择方法的指导下,我们发布了Morph-1B模型,与开源模型相比,在保持下游任务准确性的同时,推理延迟提高了1.8倍,从而推动了准确性-延迟权衡的帕累托前沿。值得注意的是,我们的实验表明,更宽更浅的模型可以在保持准确性的同时提高效率。

🔬 方法详解

问题定义:论文旨在解决现有大语言模型缩放法则未能充分考虑推理成本的问题。现有方法主要关注模型参数量和训练数据量对性能的影响,忽略了模型架构对推理延迟的显著影响。相同参数量的模型,由于架构不同,推理延迟可能存在数倍差异,这在实际应用中是不可接受的。

核心思路:论文的核心思路是修改现有的缩放法则,使其能够同时优化模型参数量、训练tokens数量和模型架构。通过联合优化这三个因素,找到在给定计算资源约束下,推理效率和模型性能的最佳平衡点。论文还提出了一种新的训练方法,以解决训练损失相似的模型在下游任务中表现差异的问题。

技术框架:论文的技术框架主要包含以下几个阶段:1) 分析模型架构对推理延迟的影响;2) 修改Chinchilla缩放法则,引入模型架构作为优化变量;3) 基于修正后的缩放法则,设计并训练一系列不同参数量、训练tokens数量和模型架构的模型;4) 提出一种新的训练方法,以提高模型的泛化能力;5) 在下游任务上评估模型的性能和推理效率。

关键创新:论文最重要的技术创新点在于提出了推理效率感知的缩放法则。与传统的缩放法则只关注模型参数量和训练数据量不同,该法则将模型架构纳入优化范围,从而能够更有效地找到推理效率和模型性能的最佳平衡点。此外,论文还提出了一种新的训练方法,以解决训练损失相似的模型在下游任务中表现差异的问题。

关键设计:在模型架构方面,论文探索了不同宽度和深度的模型结构。实验结果表明,更宽更浅的模型在保持准确率的同时,能够显著提高推理效率。在训练方面,论文采用了标准的大语言模型训练方法,并针对推理效率进行了优化。具体的参数设置和损失函数等技术细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,论文提出的推理效率感知的缩放法则能够有效提升模型的推理效率。基于该法则训练的Morph-1B模型,与开源模型相比,在保持下游任务准确性的同时,推理延迟提高了1.8倍,显著提升了准确率-延迟的帕累托前沿。此外,实验还发现,更宽更浅的模型可以在保持准确性的同时提高效率。

🎯 应用场景

该研究成果可广泛应用于对推理延迟有较高要求的场景,例如移动设备上的自然语言处理、实时对话系统、边缘计算等。通过优化模型架构和训练方法,可以显著降低推理成本,提高用户体验,并推动大语言模型在资源受限环境中的应用。

📄 摘要(原文)

Scaling laws are powerful tools to predict the performance of large language models. However, current scaling laws fall short of accounting for inference costs. In this work, we first show that model architecture affects inference latency, where models of the same size can have up to 3.5x difference in latency. To tackle this challenge, we modify the Chinchilla scaling laws to co-optimize the model parameter count, the number of training tokens, and the model architecture. Due to the reason that models of similar training loss exhibit gaps in downstream evaluation, we also propose a novel method to train inference-efficient models based on the revised scaling laws. We perform extensive empirical studies to fit and evaluate our inference-aware scaling laws. We vary model parameters from 80M to 1B, training tokens from 1.6B to 30B, and model shapes, training 63 models. Guided by our inference-efficient scaling law and model selection method, we release the Morph-1B model, which improves inference latency by 1.8x while maintaining accuracy on downstream tasks compared to open-source models, pushing the Pareto frontier of accuracy-latency tradeoff. Notably, our experiments reveal that wider and shallower models can yield efficiency gains while preserving accuracy.