Beyond Scaling Curves: Internal Dynamics of Neural Networks Through the NTK Lens

📄 arXiv: 2507.05035v1 📥 PDF

作者: Konstantin Nikolaou, Sven Krippendorf, Samuel Tovey, Christian Holm

分类: cs.LG

发布日期: 2025-07-07


💡 一句话要点

通过NTK视角分析神经网络内部动态,揭示性能缩放规律的局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经网络 缩放定律 神经正切核 内部动态 特征学习

📋 核心要点

  1. 现有缩放定律未能充分解释神经网络性能提升的内在机制,仅关注性能指标难以洞察模型行为。
  2. 该研究通过神经正切核(NTK)视角,分析数据和模型缩放对神经网络内部动态的影响,揭示性能缩放与内部机制的关联。
  3. 实验表明,即使模型内部动态相反,性能缩放指数也可能相似,并确定了支持特征学习的最大模型宽度。

📝 摘要(中文)

缩放定律为理解神经网络性能与计算成本之间的关系提供了有价值的见解,但其潜在机制仍然知之甚少。本文通过神经正切核(NTK)的视角,实证分析了神经网络在数据和模型缩放下的行为。该分析建立了性能缩放与神经网络内部动态之间的联系。在标准视觉任务上的研究结果表明,即使内部模型动态表现出相反的行为,也可能出现相似的性能缩放指数。这表明仅凭性能缩放不足以理解神经网络的潜在机制。我们还解决了神经缩放中一个先前未解决的问题:收敛到无限宽度极限如何影响有限宽度模型中的缩放行为。为此,我们研究了随着模型宽度增加,特征学习如何丢失,并量化了核驱动和特征驱动缩放机制之间的转变。我们确定了支持特征学习的最大模型宽度,在我们的设置中,我们发现这个宽度比典型的大型语言模型宽度小十倍以上。

🔬 方法详解

问题定义:现有神经网络的缩放定律研究主要关注模型大小、数据量与性能之间的关系,缺乏对模型内部动态的深入理解。仅仅依靠性能指标,无法解释模型行为的内在机制,也难以指导模型设计和优化。此外,无限宽度极限对有限宽度模型缩放行为的影响也未得到充分研究。

核心思路:本文的核心思路是通过神经正切核(NTK)的视角,将神经网络的性能缩放与内部动态联系起来。NTK可以用来描述神经网络在训练过程中的行为,通过分析NTK的变化,可以了解模型如何学习特征以及如何进行预测。通过研究不同模型宽度下的NTK,可以分析特征学习的丢失情况,并量化核驱动和特征驱动缩放机制之间的转变。

技术框架:该研究主要采用实证分析的方法,在标准视觉任务上训练不同大小和宽度的神经网络,并分析其NTK的变化。具体流程包括:1) 选择合适的神经网络架构和数据集;2) 训练不同大小和宽度的模型;3) 计算并分析训练过程中NTK的变化;4) 分析性能缩放指数与内部动态之间的关系;5) 研究模型宽度对特征学习的影响。

关键创新:该研究的关键创新在于:1) 将NTK引入到神经网络缩放定律的研究中,提供了一种新的分析视角;2) 揭示了性能缩放与内部动态之间的复杂关系,表明仅凭性能缩放不足以理解神经网络的潜在机制;3) 量化了核驱动和特征驱动缩放机制之间的转变,并确定了支持特征学习的最大模型宽度。

关键设计:研究中使用了标准的视觉任务数据集(具体数据集未知),并选择了常见的神经网络架构(具体架构未知)。关键参数包括模型宽度、训练轮数、学习率等(具体数值未知)。损失函数和优化器也使用了常见的选择(具体选择未知)。NTK的计算方法采用了标准的定义和计算公式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,即使神经网络的内部动态表现出相反的行为,也可能出现相似的性能缩放指数,这表明仅凭性能缩放不足以理解神经网络的潜在机制。此外,研究确定了支持特征学习的最大模型宽度,发现该宽度比典型的大型语言模型宽度小十倍以上(具体数值未知)。这些发现挑战了现有对神经网络缩放定律的理解。

🎯 应用场景

该研究成果可应用于神经网络架构设计和超参数优化,帮助研究人员更好地理解模型行为,并设计出更高效、更易于训练的模型。此外,该研究对于理解深度学习模型的泛化能力和鲁棒性也具有重要意义,有助于开发更可靠的AI系统。该研究结果对于大型语言模型的设计和训练也具有一定的参考价值。

📄 摘要(原文)

Scaling laws offer valuable insights into the relationship between neural network performance and computational cost, yet their underlying mechanisms remain poorly understood. In this work, we empirically analyze how neural networks behave under data and model scaling through the lens of the neural tangent kernel (NTK). This analysis establishes a link between performance scaling and the internal dynamics of neural networks. Our findings of standard vision tasks show that similar performance scaling exponents can occur even though the internal model dynamics show opposite behavior. This demonstrates that performance scaling alone is insufficient for understanding the underlying mechanisms of neural networks. We also address a previously unresolved issue in neural scaling: how convergence to the infinite-width limit affects scaling behavior in finite-width models. To this end, we investigate how feature learning is lost as the model width increases and quantify the transition between kernel-driven and feature-driven scaling regimes. We identify the maximum model width that supports feature learning, which, in our setups, we find to be more than ten times smaller than typical large language model widths.