Architectural Trade-offs in Small Language Models Under Compute Constraints

📄 arXiv: 2512.20877v1 📥 PDF

作者: Shivraj Singh Bhatti

分类: cs.CL, cs.LG

发布日期: 2025-12-24

备注: 15 pages, 11 images


💡 一句话要点

研究计算约束下小型语言模型架构权衡,揭示不同架构和训练预算对性能的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 架构选择 计算约束 Transformer 注意力机制

📋 核心要点

  1. 现有小型语言模型在计算资源有限的情况下,架构选择和训练策略的优化面临挑战。
  2. 通过系统地探索不同架构(MLP、Transformer等)和训练预算对模型性能的影响,寻求最佳的权衡方案。
  3. 实验结果表明,在小规模下,注意力机制优于MLP,且大型模型适用的技术不一定适用于小型模型。

📝 摘要(中文)

本文针对计算资源受限的小型语言模型,进行了一项系统的实证研究,分析了架构选择和训练预算如何相互作用以决定模型性能。从线性下一个token预测器开始,逐步引入非线性、自注意力机制和多层Transformer架构,并在Tiny Shakespeare数据集(字符级别建模)以及Penn Treebank (PTB) 和 WikiText-2数据集(词级别建模)上评估每个模型。我们使用测试负对数似然(NLL)、参数数量和近似训练FLOPs来比较模型,以此表征准确率-效率的权衡。结果表明,即使在小规模下,基于注意力的模型在每FLOP效率方面也优于MLP,而增加深度或上下文而不进行充分优化可能会降低性能。我们进一步研究了旋转位置嵌入(RoPE),发现大型语言模型中成功的架构技术不一定能转移到小型模型领域。

🔬 方法详解

问题定义:论文旨在研究在严格的计算约束下,小型语言模型(Small Language Models, SLMs)的架构选择问题。现有方法在设计SLMs时,往往直接套用大型语言模型(LLMs)的架构,忽略了计算资源和数据规模的差异,导致性能不佳。因此,如何针对SLMs的特点,选择合适的架构,以在有限的计算资源下达到最佳性能,是本文要解决的核心问题。

核心思路:本文的核心思路是通过系统性的实验,对比不同架构(例如MLP、Transformer)在不同训练预算下的性能表现,从而找到在计算约束下,SLMs的最佳架构选择。作者从最简单的线性模型开始,逐步增加模型的复杂度,例如引入非线性激活函数、自注意力机制、多层结构等,并评估每种架构的性能。

技术框架:本文采用了一种实证研究的方法,其整体框架如下: 1. 模型构建:构建一系列不同架构的SLMs,包括线性模型、MLP、Transformer等。 2. 数据集选择:选择Tiny Shakespeare(字符级别)、Penn Treebank (PTB) 和 WikiText-2(词级别)等数据集进行实验。 3. 训练与评估:在不同的计算预算下训练这些模型,并使用测试负对数似然(NLL)、参数数量和近似训练FLOPs等指标评估模型的性能。 4. 结果分析:分析实验结果,比较不同架构在不同计算预算下的性能表现,从而得出结论。

关键创新:本文的关键创新在于对小型语言模型的架构选择进行了系统性的实证研究,揭示了在计算约束下,不同架构的性能差异。特别地,本文发现,即使在小规模下,基于注意力的模型在每FLOP效率方面也优于MLP,而增加深度或上下文而不进行充分优化可能会降低性能。此外,本文还发现,大型语言模型中成功的架构技术(例如RoPE)不一定能转移到小型模型领域。

关键设计:本文的关键设计包括: 1. 架构选择:选择了多种具有代表性的架构,包括线性模型、MLP、Transformer等,以便进行全面的比较。 2. 计算预算控制:通过控制训练的FLOPs来模拟不同的计算约束。 3. 评估指标:使用了测试负对数似然(NLL)、参数数量和近似训练FLOPs等多个指标来全面评估模型的性能。 4. 数据集选择:选择了不同规模和类型的文本数据集,以验证结论的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在小规模语言模型中,基于注意力的模型在每FLOP效率方面优于MLP。例如,在相同计算量下,Transformer模型在Tiny Shakespeare数据集上的NLL低于MLP模型。此外,研究还发现,盲目增加模型深度或上下文长度,而不进行充分优化,反而会降低模型性能。RoPE等在大模型上有效的技术,在小模型上效果不佳。

🎯 应用场景

该研究成果可应用于资源受限的设备或场景,例如嵌入式系统、移动设备或边缘计算环境。通过选择合适的模型架构,可以在有限的计算资源下部署高性能的语言模型,从而实现智能助手、文本生成、机器翻译等功能。此外,该研究还可以为设计更高效的小型语言模型提供指导。

📄 摘要(原文)

We present a systematic empirical study of small language models under strict compute constraints, analyzing how architectural choices and training budget interact to determine performance. Starting from a linear next-token predictor, we progressively introduce nonlinearities, self-attention, and multi-layer transformer architectures, evaluating each on character-level modeling of Tiny Shakespeare and word-level modeling of Penn Treebank (PTB) and WikiText-2. We compare models using test negative log-likelihood (NLL), parameter count, and approximate training FLOPs to characterize accuracy-efficiency trade-offs. Our results show that attention-based models dominate MLPs in per-FLOP efficiency even at small scale, while increasing depth or context without sufficient optimization can degrade performance. We further examine rotary positional embeddings (RoPE), finding that architectural techniques successful in large language models do not necessarily transfer to small-model regimes.