What Scales in Cross-Entropy Scaling Law?

📄 arXiv: 2510.04067v1 📥 PDF

作者: Junxi Yan, Zixi Wei, Jingtao Zhan, Qingyao Ai, Yiqun Liu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-10-05


💡 一句话要点

揭示交叉熵缩放定律失效原因:仅误差熵具有鲁棒缩放性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交叉熵缩放定律 大型语言模型 误差熵 自对齐 置信度

📋 核心要点

  1. 现有交叉熵缩放定律在大模型上失效,损失下降慢于预期,阻碍了大模型发展。
  2. 将交叉熵分解为误差熵、自对齐和置信度三个部分,揭示各部分缩放规律。
  3. 实验表明仅误差熵具有鲁棒的幂律缩放,解释了交叉熵缩放定律失效的原因。

📝 摘要(中文)

交叉熵缩放定律长期以来被视为指导大型语言模型发展的关键工具。它表明,随着模型规模的增加,交叉熵损失以可预测的幂律速率下降。然而,最近的证据表明,这种定律在非常大的规模下会失效:损失的下降速度比预期的要慢,这给大型语言模型的开发带来了重大麻烦。本文假设,根本原因在于交叉熵本身并没有真正缩放;相反,只有它的一个隐藏组成部分在缩放。为了研究这一点,我们将交叉熵分解为三个部分:误差熵、自对齐和置信度。我们从理论上和经验上都表明,这种分解精确地捕捉了训练动态和优化目标。通过对多个数据集和32个模型(规模跨越五个数量级)进行的大量实验,我们发现只有误差熵遵循鲁棒的幂律缩放,而其他两个项基本保持不变。此外,误差熵在小型模型中占交叉熵的主要份额,但随着模型规模的增大,其比例会减小。这解释了为什么交叉熵缩放定律在小规模下看起来是准确的,但在非常大的规模下会失效。我们的发现将误差熵缩放定律确立为对模型行为更准确的描述。我们相信它将在大型语言模型的训练、理解和未来发展中得到广泛应用。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中交叉熵缩放定律失效的问题。现有方法依赖于交叉熵损失的整体缩放规律来指导模型训练,但当模型规模增大时,该规律不再适用,导致模型性能提升受限。现有方法的痛点在于无法解释和预测这种缩放规律的偏差。

核心思路:论文的核心思路是将交叉熵损失分解为更细粒度的组成部分,即误差熵、自对齐和置信度,并分别研究它们的缩放行为。通过这种分解,可以更清晰地理解交叉熵损失的动态变化,并找出真正具有鲁棒缩放规律的成分。这样设计的目的是为了找到更可靠的指标来指导大型语言模型的训练和优化。

技术框架:论文的技术框架主要包括以下几个步骤:1) 对交叉熵损失进行理论分解,推导出误差熵、自对齐和置信度的计算公式。2) 在多个数据集和不同规模的模型上进行实验,计算并分析这三个组成部分的缩放规律。3) 验证误差熵的缩放规律是否比交叉熵更稳定和可靠。4) 分析误差熵在不同模型规模下的占比变化,解释交叉熵缩放定律失效的原因。

关键创新:论文最重要的技术创新点在于对交叉熵损失的分解。这种分解揭示了交叉熵损失内部的复杂结构,并发现了误差熵这一具有鲁棒缩放规律的成分。与现有方法相比,该方法能够更准确地描述和预测大型语言模型的训练动态。

关键设计:论文的关键设计包括:1) 精确的交叉熵分解公式,确保分解的合理性和有效性。2) 选取不同规模的模型和多样化的数据集,保证实验结果的泛化性。3) 采用幂律拟合等统计方法,分析不同成分的缩放规律。4) 细致的误差分析,验证误差熵的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,误差熵具有鲁棒的幂律缩放规律,而自对齐和置信度则基本保持不变。误差熵在小型模型中占交叉熵的主要份额,但随着模型规模的增大,其比例会减小。这些发现解释了交叉熵缩放定律在大型模型上失效的原因,并为未来的模型训练提供了新的思路。

🎯 应用场景

该研究成果可应用于大型语言模型的训练、优化和评估。通过关注误差熵的缩放规律,可以更有效地指导模型训练,提高模型性能。此外,该研究还可以帮助我们更深入地理解大型语言模型的内部机制,为未来的模型设计提供理论基础。

📄 摘要(原文)

The cross-entropy scaling law has long served as a key tool for guiding the development of large language models. It shows that cross-entropy loss decreases in a predictable power-law rate as the model size increases. However, recent evidence indicates that this law breaks down at very large scales: the loss decreases more slowly than expected, which causes significant trouble for developing large language models. In this paper, we hypothesize that the root cause lies in the fact that cross-entropy itself does not truly scale; instead, only one of its hidden components does. To investigate this, we introduce a novel decomposition of cross-entropy into three parts: Error-Entropy, Self-Alignment, and Confidence. We show both theoretically and empirically that this decomposition precisely captures the training dynamics and optimization objectives. Through extensive experiments on multiple datasets and 32 models spanning five orders of magnitude in size, we find that only error-entropy follows a robust power-law scaling, while the other two terms remain largely invariant. Moreover, error-entropy constitutes the dominant share of cross-entropy in small models but diminishes in proportion as models grow larger. This explains why the cross-entropy scaling law appears accurate at small scales but fails at very large ones. Our findings establish the error-entropy scaling law as a more accurate description of model behavior. We believe it will have wide applications in the training, understanding, and future development of large language models.