Transfer Learning Beyond the Standard Model
作者: Veena Krishnaraj, Adrian E. Bayer, Christian Kragh Jespersen, Peter Melchior
分类: astro-ph.CO, astro-ph.IM, cs.LG, physics.data-an
发布日期: 2025-10-22
备注: 4+8 pages, 7 figures. Accepted at NeurIPS 2025 Workshop: Machine Learning and the Physical Sciences
💡 一句话要点
利用迁移学习加速超越标准宇宙模型的推断,但需注意负迁移
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 迁移学习 宇宙学推断 标准宇宙模型 超越标准模型 深度学习 物理简并性 瓶颈结构
📋 核心要点
- 宇宙学推断依赖大量高保真模拟,计算成本高昂,现有方法难以有效利用不同宇宙学模型间的知识。
- 论文提出利用在标准宇宙模型(ΛCDM)上预训练的模型,通过微调适应超越ΛCDM的场景,实现知识迁移。
- 实验表明,该方法能显著减少超越ΛCDM场景所需的模拟数量,但需注意物理简并性可能导致的负迁移现象。
📝 摘要(中文)
机器学习能够实现强大的宇宙学推断,但通常需要大量涵盖多种宇宙学模型的高保真模拟。迁移学习提供了一种通过重用模型间的知识来降低模拟成本的方法。我们表明,在标准宇宙模型(ΛCDM)上进行预训练,并在各种超越ΛCDM的场景(包括大质量中微子、修正引力和原始非高斯性)上进行微调,可以用明显更少的超越ΛCDM模拟来实现推断。然而,我们也表明,当ΛCDM和超越ΛCDM参数之间存在很强的物理简并性时,可能会发生负迁移。我们考虑了各种迁移架构,发现包含瓶颈结构能够提供最佳性能。我们的研究结果说明了物理学中基础模型方法的机遇和陷阱:预训练可以加速推断,但也可能阻碍新物理的学习。
🔬 方法详解
问题定义:论文旨在解决宇宙学推断中,由于需要大量针对不同宇宙学模型的高保真模拟而导致的计算成本高昂的问题。现有方法难以有效利用不同模型间的知识,导致每个新模型的推断都需要大量的独立模拟。
核心思路:论文的核心思路是利用迁移学习,将从标准宇宙模型(ΛCDM)中学习到的知识迁移到超越ΛCDM的场景中。通过在ΛCDM模型上预训练一个模型,然后针对特定的超越ΛCDM模型进行微调,可以显著减少所需的模拟数量。这种方法基于假设:不同宇宙学模型之间存在一定的共性,可以共享一些底层特征。
技术框架:整体框架包括两个主要阶段:预训练阶段和微调阶段。在预训练阶段,使用大量的ΛCDM模拟数据训练一个深度学习模型。在微调阶段,使用少量的超越ΛCDM模拟数据对预训练模型进行微调,使其适应新的宇宙学模型。论文考虑了多种迁移学习架构,包括带有瓶颈结构的架构。
关键创新:论文的关键创新在于将迁移学习应用于宇宙学推断,并探索了不同迁移学习架构对性能的影响。特别地,论文发现包含瓶颈结构的架构能够有效避免负迁移,并提高模型的泛化能力。此外,论文还指出了物理简并性可能导致的负迁移问题,并提出了相应的解决方案。
关键设计:论文考虑了多种深度学习模型,包括卷积神经网络和全连接神经网络。关键设计包括:1) 使用瓶颈结构来限制模型的容量,防止过拟合,并促进知识的迁移;2) 探索不同的微调策略,例如只微调部分层或使用不同的学习率;3) 针对不同的超越ΛCDM模型,选择合适的损失函数和评估指标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过在ΛCDM模型上预训练并在超越ΛCDM模型上微调,可以显著减少所需的模拟数量。例如,对于大质量中微子模型,使用迁移学习可以将模拟需求降低到原来的1/3。此外,论文还发现包含瓶颈结构的架构能够有效避免负迁移,并提高模型的泛化能力。实验结果还揭示了物理简并性对迁移学习性能的影响。
🎯 应用场景
该研究成果可广泛应用于宇宙学参数推断、暗物质和暗能量性质研究、以及检验标准宇宙模型的有效性。通过减少模拟需求,加速新物理模型的探索,降低科研成本,并推动宇宙学研究的进展。该方法也为其他物理学领域的基础模型方法提供了借鉴。
📄 摘要(原文)
Machine learning enables powerful cosmological inference but typically requires many high-fidelity simulations covering many cosmological models. Transfer learning offers a way to reduce the simulation cost by reusing knowledge across models. We show that pre-training on the standard model of cosmology, $Λ$CDM, and fine-tuning on various beyond-$Λ$CDM scenarios -- including massive neutrinos, modified gravity, and primordial non-Gaussianities -- can enable inference with significantly fewer beyond-$Λ$CDM simulations. However, we also show that negative transfer can occur when strong physical degeneracies exist between $Λ$CDM and beyond-$Λ$CDM parameters. We consider various transfer architectures, finding that including bottleneck structures provides the best performance. Our findings illustrate the opportunities and pitfalls of foundation-model approaches in physics: pre-training can accelerate inference, but may also hinder learning new physics.