Spectral Reach: Understanding Neural Scaling as Progress into the Spectral Tail
作者: Konstantin Nikolaou, Jonas Scheunemann, Sven Krippendorf, Samuel Tovey, Christian Holm
分类: cs.LG, physics.comp-ph
发布日期: 2026-05-29
💡 一句话要点
提出“谱位置”度量,揭示神经网络规模化训练中谱尾学习机制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经标度律 谱分析 神经正切核 特征学习 模型泛化
📋 核心要点
- 神经标度律缺乏对底层机制的理解,现有分析工具难以扩展到大型模型。
- 论文提出“谱位置”这一可扩展的度量,用于分析训练过程中eNTK特征值的贡献。
- 实验表明,训练过程逐渐转向谱尾学习,大模型具有更强的“谱范围”,特征学习是关键。
📝 摘要(中文)
神经标度律描述了模型大小、数据集大小、计算量和性能之间可预测的幂律关系。虽然这些定律指导着现代基础模型的发展,但支撑它们的机制仍然知之甚少,部分原因是缺乏可扩展的分析工具。为了弥补这一差距,我们引入了“谱位置”:一种可扩展的度量,用于衡量经验神经正切核(eNTK)的哪些特征值当前正在驱动损失减少。将此度量应用于缩放实验,我们发现谱位置在整个训练过程中都在降低:学习从主导特征模式转移到谱尾。更大的模型比更小的模型更深入地进入尾部,揭示了一种尺寸依赖的能力,我们称之为“谱范围”。这解释了为什么更大的模型能够实现更低的损失:它们能够维持较小模型无法访问的弱谱信号的学习。我们进一步将特征学习确定为谱范围的关键推动因素。它自适应地放大梯度幅度,随着学习的进行,在冻结表示停滞的地方维持进展。这为通过架构和优化器设计进行具体干预提供了思路。
🔬 方法详解
问题定义:神经网络的规模化训练遵循一定的标度律,但其内在机制尚不明确。现有分析工具难以有效处理大规模模型的训练过程,无法深入理解模型性能提升的原因。具体来说,现有方法难以量化训练过程中不同频率成分(对应于eNTK的特征值)对损失函数下降的贡献,以及模型大小如何影响对这些频率成分的学习能力。
核心思路:论文的核心思路是通过引入“谱位置”这一概念,来量化训练过程中eNTK的特征值对损失函数下降的贡献。通过分析谱位置的变化,可以了解模型学习的重点从哪些频率成分转移到哪些频率成分。此外,通过比较不同大小模型的谱位置,可以揭示模型大小与学习能力之间的关系。论文认为,更大的模型能够学习到更弱的谱信号,从而实现更低的损失。
技术框架:论文的技术框架主要包括以下几个步骤:1) 计算经验神经正切核(eNTK);2) 对eNTK进行特征值分解,得到特征值和特征向量;3) 定义“谱位置”作为衡量当前驱动损失减少的特征值的指标;4) 在不同大小的模型上进行缩放实验,并分析谱位置随训练过程的变化;5) 研究特征学习对谱范围的影响。
关键创新:论文的关键创新在于提出了“谱位置”和“谱范围”这两个概念,并将其应用于分析神经网络的规模化训练过程。谱位置提供了一种可扩展的度量,用于量化训练过程中不同频率成分的贡献。谱范围则揭示了模型大小与学习能力之间的关系,即更大的模型能够学习到更弱的谱信号。此外,论文还指出了特征学习在提升谱范围中的关键作用。
关键设计:谱位置的具体计算方式未知,论文中可能涉及对eNTK特征值的加权平均或其他统计量。特征学习的实现方式可能涉及特定的网络结构或优化器设计,以自适应地放大梯度幅度。具体的实验设置,包括模型架构、数据集、优化器等,也会影响实验结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,随着训练的进行,谱位置逐渐降低,表明学习从主导特征模式转移到谱尾。更大的模型比更小的模型具有更大的谱范围,能够学习到更弱的谱信号,从而实现更低的损失。特征学习被认为是提升谱范围的关键因素,能够自适应地放大梯度幅度,维持学习进展。具体的性能提升数据未知。
🎯 应用场景
该研究成果可应用于指导神经网络架构设计和优化器选择,从而更有效地训练大规模模型。通过理解谱范围和特征学习的作用,可以设计出更适合特定任务的模型结构和训练策略,提升模型性能并降低训练成本。此外,该研究也为理解神经网络的泛化能力提供了新的视角。
📄 摘要(原文)
Neural scaling laws describe predictable power-law relationships between model size, dataset size, compute, and performance. While these laws guide the development of modern foundation models, the mechanisms underpinning them remain poorly understood, in part due to the absence of scalable analysis tools. To close this gap, we introduce "spectral position": a scalable measure of which eigenvalues of the empirical neural tangent kernel (eNTK) currently drive loss reduction. Applying this measure to scaling experiments, we find that spectral position decreases throughout training: learning shifts from dominant eigenmodes into the spectral tail. Larger models reach further into the tail than smaller models, revealing a size-dependent capacity we call "spectral reach". This suggests why larger models achieve lower losses: they sustain learning on weak spectral signals inaccessible to smaller models. We further identify feature learning as a key enabler of spectral reach. It adaptively amplifies gradient magnitudes as learning advances, sustaining progress where frozen representations stall. This points to concrete interventions through architecture and optimizer design.