Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs
作者: Song Bian, Tao Yu, Shivaram Venkataraman, Youngsuk Park
分类: cs.LG, cs.AI
发布日期: 2025-10-21
备注: 27 pages, 17 figures
💡 一句话要点
提出条件缩放律与搜索框架,优化LLM架构以提升推理效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理效率 模型架构 缩放律 架构搜索 分组查询注意力 条件缩放律
📋 核心要点
- 现有LLM推理成本高昂,模型精度与推理效率的权衡未被充分研究。
- 提出条件缩放律和架构搜索框架,在给定训练预算下寻找最优架构。
- 实验表明,优化后的模型在精度和推理吞吐量上均优于现有基线模型。
📝 摘要(中文)
扩展参数数量和训练数据规模已被证明是提升大型语言模型(LLM)性能的有效策略。然而,随着这些模型变得越来越强大并被广泛部署,推理成本已成为一个紧迫的问题。尽管其重要性,模型准确性和推理效率之间的权衡仍未得到充分探索。本文研究了关键架构因素,包括隐藏层大小、MLP和注意力之间的参数分配比例(mlp-to-attention ratio)以及分组查询注意力(GQA),如何影响推理成本和准确性。我们引入了一种条件缩放律,利用架构信息增强了Chinchilla框架,以及一个用于识别兼具推理效率和准确性的架构的搜索框架。为了验证我们的方法,我们训练了200多个模型,参数范围从80M到3B,训练tokens范围从8B到100B,并拟合了所提出的条件缩放律。结果表明,该条件缩放律能够可靠地预测最佳架构选择,并且由此产生的模型优于现有的开源基线。在相同的训练预算下,优化的架构与LLaMA-3.2相比,实现了高达2.1%的准确率提升和42%的推理吞吐量提升。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)推理效率低下的问题。现有方法通常只关注扩大模型规模以提高性能,而忽略了推理成本。因此,如何在保证模型精度的前提下,降低推理成本,成为了一个重要的研究方向。现有方法缺乏对模型架构与推理效率之间关系的深入理解,导致无法有效地优化模型架构。
核心思路:论文的核心思路是,通过研究关键架构因素(如隐藏层大小、MLP与注意力参数比例、GQA)对推理成本和准确性的影响,建立一个条件缩放律,并利用该缩放律指导架构搜索,从而找到在给定训练预算下,兼具高精度和高推理效率的最优模型架构。这样设计的目的是为了在模型训练阶段就考虑到推理效率,从而避免在部署时出现性能瓶颈。
技术框架:论文的技术框架主要包含以下几个阶段:1) 架构因素分析:研究隐藏层大小、MLP与注意力参数比例、GQA等架构因素对推理成本和准确性的影响。2) 条件缩放律构建:基于Chinchilla框架,引入架构信息,构建条件缩放律,用于预测不同架构的性能。3) 架构搜索:利用条件缩放律,设计架构搜索算法,在给定的训练预算下,寻找最优模型架构。4) 模型训练与验证:训练搜索到的模型架构,并在多个数据集上进行验证,评估其性能和推理效率。
关键创新:论文最重要的技术创新点在于提出了条件缩放律,该缩放律能够将模型架构信息纳入考虑,从而更准确地预测模型在不同架构下的性能。与传统的缩放律相比,条件缩放律能够更好地指导模型架构设计,从而找到兼具高精度和高推理效率的模型架构。此外,论文还提出了一个基于条件缩放律的架构搜索框架,能够自动化地搜索最优模型架构。
关键设计:论文的关键设计包括:1) MLP-to-attention ratio:研究MLP层和注意力层之间的参数分配比例对模型性能和推理效率的影响,找到最优比例。2) Grouped-query attention (GQA):采用GQA机制,降低注意力计算的复杂度,从而提高推理效率。3) 条件缩放律的数学形式:具体定义了如何将架构信息融入到Chinchilla框架中,构建条件缩放律。4) 架构搜索算法:设计了具体的架构搜索算法,包括搜索空间、搜索策略等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于条件缩放律和架构搜索框架优化的模型,在相同的训练预算下,与LLaMA-3.2相比,实现了高达2.1%的准确率提升和42%的推理吞吐量提升。这表明该方法能够有效地提升LLM的推理效率,同时保持甚至提高模型精度。
🎯 应用场景
该研究成果可应用于各种需要高效LLM推理的场景,例如移动设备上的本地LLM部署、低延迟的在线对话系统、以及资源受限的边缘计算环境。通过优化模型架构,可以在保证模型性能的同时,显著降低推理成本,从而加速LLM的普及和应用。
📄 摘要(原文)
Scaling the number of parameters and the size of training data has proven to be an effective strategy for improving large language model (LLM) performance. Yet, as these models grow increasingly powerful and widely deployed, the cost of inference has become a pressing concern. Despite its importance, the trade-off between model accuracy and inference efficiency remains underexplored. In this work, we examine how key architectural factors, hidden size, the allocation of parameters between MLP and attention (mlp-to-attention ratio), and grouped-query attention (GQA), influence both inference cost and accuracy. We introduce a conditional scaling law that augments the Chinchilla framework with architectural information, along with a search framework for identifying architectures that are simultaneously inference-efficient and accurate. To validate our approach, we train more than 200 models spanning 80M to 3B parameters and 8B to 100B training tokens, and fit the proposed conditional scaling law. Our results show that the conditional scaling law reliably predicts optimal architectural choices and that the resulting models outperform existing open-source baselines. Under the same training budget, optimized architectures achieve up to 2.1% higher accuracy and 42% greater inference throughput compared to LLaMA-3.2.