Negligible in Size, Significant in Effect: On Scale Vectors in Large Language Models

📄 arXiv: 2605.26895v1 📥 PDF

作者: Mingze Wang, Shuchen Zhu, Yuxin Fang, Binghui Li, Kai Shen, Shu Zhong

分类: cs.LG, cs.AI, stat.ML

发布日期: 2026-05-26

备注: 36 pages


💡 一句话要点

针对大语言模型,研究Scale Vector的作用并提出优化策略,显著提升模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 Scale Vector 归一化层 模型优化 预训练

📋 核心要点

  1. 现有大语言模型中Normalization层的Scale Vector作用机制尚不明确,影响模型性能。
  2. 论文从表达能力、优化和架构结构三个角度分析Scale Vector,并提出优化策略。
  3. 实验表明,优化后的Scale Vector策略在多种模型和训练设置下均能提升性能,降低终端损失。

📝 摘要(中文)

现代大型语言模型(LLM)中的归一化层包含一个确定性的归一化操作和一个可学习的scale vector。虽然归一化操作已被广泛研究,但scale vector的使用非常普遍,但对其理解仍然不足。本文从表达能力、优化和架构结构的角度对LLM中的scale vector进行了系统研究。首先,经验表明,尽管scale vector仅占模型参数的一小部分,但移除它们会大大降低LLM预训练的效果。理论进一步表明,在Pre-Norm架构中,scale vector不会增加表达能力;相反,它们通过对后续线性映射的自放大预处理效应来改善优化。其次,研究了scale vector的权重衰减作用。通过区分Input-Norm和Output-Norm层,理论上表明权重衰减对前者有益,但对后者有害,因为它们在优化和表达能力中的作用不同。第三,受此理解的启发,提出了三个轻量级且互补的scale vector改进:分支特定异构性、线性映射周围的改进放置以及幅度-方向重参数化。理论和实验表明,每项改进都能带来一致的收益。最后,将这些改进结合到一个统一的scale-vector策略中,并通过在0.12B到2B参数范围内的密集和混合专家模型上进行广泛的LLM预训练实验来评估它,这些实验跨越了多种优化器和学习率计划,并在工业规模的token预算下进行。统一策略始终比经过良好调整的基线实现更低的终端损失,并表现出更有利的缩放行为,同时增加了可忽略不计的参数和计算开销。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中Scale Vector作用机制不明确的问题。尽管Scale Vector在Normalization层中广泛使用,但其对模型表达能力、优化过程和整体架构的影响尚不清楚。现有的研究主要集中在Normalization操作本身,而忽略了Scale Vector的重要性,导致模型训练效率和最终性能可能受到限制。

核心思路:论文的核心思路是通过理论分析和实验验证,深入理解Scale Vector在LLM中的作用。具体而言,论文从三个方面入手:1) 评估Scale Vector对模型表达能力的影响;2) 研究Scale Vector在优化过程中的作用,特别是与权重衰减的关系;3) 探索Scale Vector在不同架构位置上的影响。基于这些理解,论文提出了轻量级的Scale Vector改进策略,旨在提升模型性能。

技术框架:论文的研究框架包括以下几个主要部分: 1. 理论分析:从表达能力和优化角度分析Scale Vector的作用,推导权重衰减对不同类型Normalization层的影响。 2. 经验验证:通过控制实验,评估Scale Vector对模型预训练的影响,验证理论分析的正确性。 3. 策略优化:提出三种轻量级的Scale Vector改进策略,包括分支特定异构性、改进的放置位置和幅度-方向重参数化。 4. 综合评估:将所有改进策略整合到一个统一的框架中,并在不同规模的LLM上进行广泛的预训练实验,评估其性能。

关键创新:论文的关键创新在于: 1. 揭示了Scale Vector在Pre-Norm架构中主要作用是改善优化,而非增加表达能力。 2. 区分了Input-Norm和Output-Norm层,并指出权重衰减对它们的影响不同。 3. 提出了三种轻量级的Scale Vector改进策略,能够有效提升模型性能。

关键设计:论文的关键设计包括: 1. 分支特定异构性:允许不同分支的Scale Vector具有不同的初始化和学习率。 2. 改进的放置位置:将Scale Vector放置在线性映射之前或之后,以更好地控制梯度流动。 3. 幅度-方向重参数化:将Scale Vector分解为幅度和方向两个部分,并分别进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,论文提出的统一Scale Vector策略在0.12B到2B参数范围内的密集和混合专家模型上,均能取得比基线更好的性能。具体而言,该策略能够显著降低模型的终端损失,并表现出更优越的缩放行为。例如,在相同计算资源下,使用该策略训练的模型能够更快地收敛,并达到更低的损失值。

🎯 应用场景

该研究成果可广泛应用于各种基于Transformer的大语言模型,例如文本生成、机器翻译、对话系统等。通过优化Scale Vector,可以提升模型的训练效率、降低计算成本,并最终提高模型的性能和泛化能力。该研究对于推动大语言模型在工业界的应用具有重要意义。

📄 摘要(原文)

Normalization layers in modern large language models (LLMs) consist of a deterministic normalization operation and a learnable scale vector. While the normalization operation has been extensively studied, the scale vector remains poorly understood despite its ubiquitous use. In this work, we present a systematic study of scale vectors in LLMs from the perspectives of expressivity, optimization, and architectural structure. First, we show empirically that although scale vectors constitute only a negligible fraction of model parameters, removing them substantially degrades LLM pre-training. Our theory further shows that, in Pre-Norm architectures, scale vectors do not increase expressivity; instead, they improve optimization through a self-amplifying preconditioning effect on subsequent linear mappings. Second, we investigate the role of weight decay for scale vectors. By distinguishing Input-Norm and Output-Norm layers, we theoretically show that weight decay is beneficial for the former but harmful for the latter, due to their distinct roles in optimization and expressivity. Third, motivated by this understanding, we propose three lightweight and complementary improvements to scale vectors: branch-specific heterogeneity, improved placement around linear mappings, and magnitude-direction reparameterization. Both theory and experiments show that each improvement yields consistent gains. Finally, we combine these improvements into a unified scale-vector strategy and evaluate it through extensive LLM pre-training experiments on dense and mixture-of-experts models ranging from 0.12B to 2B parameters, across multiple optimizers and learning rate schedules, under industrial-scale token budgets. The unified strategy consistently achieves lower terminal loss than well-tuned baselines and exhibits more favorable scaling behavior, while adding negligible parameter and computational overhead.