On Neural Scaling Laws for Weather Emulation through Continual Training

📄 arXiv: 2603.25687v1 📥 PDF

作者: Shashank Subramanian, Alexander Kiefer, Arnur Nigmetov, Amir Gholami, Dmitriy Morozov, Michael W. Mahoney

分类: cs.LG

发布日期: 2026-03-26

备注: ICLR Foundation Models for Science Workshop 2026, 19 pages, 13 figures


💡 一句话要点

通过持续训练研究天气模拟的神经标度律,实现高效资源分配

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经标度律 天气模拟 Swin Transformer 持续训练 周期性冷却 IsoFLOP曲线 科学机器学习

📋 核心要点

  1. 现有的天气预报模型通常依赖复杂的训练策略和架构,缺乏对模型、数据和计算资源之间关系的清晰理解。
  2. 本文提出了一种基于Swin Transformer和持续训练的极简方法,通过周期性冷却策略优化模型训练,并研究了神经标度律在天气预报中的应用。
  3. 实验表明,该方法不仅遵循可预测的标度趋势,甚至优于标准余弦学习率调度,并能有效提升下游任务的性能,如多步预测精度。

📝 摘要(中文)

本文研究了科学机器学习中的神经标度律,重点关注天气预报模型。为了在尽可能简单的环境中分析标度行为,作者采用了一种最小的、可扩展的、通用的Swin Transformer架构,并使用具有恒定学习率和周期性冷却的持续训练作为一种有效的训练策略。研究表明,以这种极简方式训练的模型遵循可预测的标度趋势,甚至优于标准的余弦学习率调度。冷却阶段可以被重新利用以提高下游性能,例如,通过光谱损失调整实现更长预测范围的准确多步展开以及更清晰的预测。作者还系统地探索了各种计算预算下的各种模型和数据集大小,以构建IsoFLOP曲线,并确定计算最佳的训练方案。将这些趋势外推到更大的规模突出了潜在的性能限制,表明神经标度可以作为有效资源分配的重要诊断工具。代码已开源。

🔬 方法详解

问题定义:论文旨在研究如何利用神经标度律来指导天气模拟模型的训练,并解决现有方法中训练策略复杂、资源分配效率低下的问题。现有方法通常依赖于复杂的学习率调度策略,且缺乏对模型规模、数据规模和计算资源之间关系的系统性分析,导致资源利用率不高。

核心思路:论文的核心思路是采用一种极简的训练方法,即使用恒定学习率和周期性冷却的持续训练,并结合Swin Transformer架构,以便更清晰地观察和分析神经标度律。通过系统地探索不同模型和数据集规模下的性能表现,构建IsoFLOP曲线,从而确定计算最优的训练方案。

技术框架:整体框架包括数据准备、模型构建、持续训练和性能评估四个主要阶段。数据准备阶段涉及天气数据的预处理和划分;模型构建阶段采用Swin Transformer作为基础架构;持续训练阶段使用恒定学习率和周期性冷却策略;性能评估阶段则通过多步预测等下游任务来评估模型的性能。

关键创新:最重要的技术创新点在于将持续训练与周期性冷却策略相结合,并将其应用于天气模拟模型的训练中。这种方法简化了训练过程,使得神经标度律的分析更加清晰。此外,通过光谱损失调整,进一步提升了模型的预测精度。

关键设计:关键设计包括:1) Swin Transformer架构的选择,因为它具有良好的可扩展性和通用性;2) 恒定学习率和周期性冷却策略,简化了训练过程;3) IsoFLOP曲线的构建,用于确定计算最优的训练方案;4) 光谱损失调整,用于提升预测精度。具体的参数设置和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,采用持续训练和周期性冷却策略的Swin Transformer模型,在天气模拟任务中表现出可预测的标度趋势,并且优于标准的余弦学习率调度。通过光谱损失调整,模型在多步预测任务中取得了更高的精度。IsoFLOP曲线的分析结果为确定计算最优的训练方案提供了依据。

🎯 应用场景

该研究成果可应用于提升天气预报模型的训练效率和预测精度,优化计算资源的分配,并为其他科学机器学习领域的模型训练提供借鉴。通过神经标度律的分析,可以更好地理解模型性能与资源投入之间的关系,从而指导模型设计和训练策略的选择,最终提升天气预报的准确性和可靠性。

📄 摘要(原文)

Neural scaling laws, which in some domains can predict the performance of large neural networks as a function of model, data, and compute scale, are the cornerstone of building foundation models in Natural Language Processing and Computer Vision. We study neural scaling in Scientific Machine Learning, focusing on models for weather forecasting. To analyze scaling behavior in as simple a setting as possible, we adopt a minimal, scalable, general-purpose Swin Transformer architecture, and we use continual training with constant learning rates and periodic cooldowns as an efficient training strategy. We show that models trained in this minimalist way follow predictable scaling trends and even outperform standard cosine learning rate schedules. Cooldown phases can be re-purposed to improve downstream performance, e.g., enabling accurate multi-step rollouts over longer forecast horizons as well as sharper predictions through spectral loss adjustments. We also systematically explore a wide range of model and dataset sizes under various compute budgets to construct IsoFLOP curves, and we identify compute-optimal training regimes. Extrapolating these trends to larger scales highlights potential performance limits, demonstrating that neural scaling can serve as an important diagnostic for efficient resource allocation. We open-source our code for reproducibility.