Cosmo-FOLD: Fast generation and upscaling of field-level cosmological maps with overlap latent diffusion

📄 arXiv: 2601.14377v1 📥 PDF

作者: Satvik Mishra, Roberto Trotta, Matteo Viel

分类: astro-ph.CO, astro-ph.IM, cs.LG

发布日期: 2026-01-20

备注: 15 pages, 10 figures


💡 一句话要点

Cosmo-FOLD:利用重叠潜在扩散快速生成和放大场级宇宙学图

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 宇宙学模拟 扩散模型 生成模型 暗物质 大尺度结构

📋 核心要点

  1. 现有宇宙学研究依赖昂贵的流体动力学模拟,计算成本高昂,限制了对宇宙大尺度结构的探索。
  2. Cosmo-FOLD利用重叠潜在扩散模型,通过在小体积上训练的模型,快速生成和放大宇宙学场,降低计算成本。
  3. 实验表明,Cosmo-FOLD能以较低成本生成高精度宇宙学场,功率谱误差在10%以内,并具备良好的泛化能力。

📝 摘要(中文)

本文展示了概率扩散模型在显著降低昂贵流体动力学模拟的计算成本方面的能力,从而研究可观测的重子宇宙学探针与暗物质之间的关系,达到场级并在非线性状态下。我们引入了一种名为Cosmo-FOLD(Cosmological Fields via Overlap Latent Diffusion,通过重叠潜在扩散的宇宙学场)的新技术,用于快速生成准确且任意大小的宇宙学和天体物理三维场,并以给定的输入场为条件。我们能够从仅在约1%的体积上训练的模型中生成TNG300-2暗物质密度和气体温度场(我们称之为“放大”),对于波数k <= 5 h Mpc^-1,重现了大型相干暗物质丝状结构和功率谱,误差在10%以内。这些结果是在原始模拟成本的一小部分内,并在单个GPU上产生的。除了单点和两点统计之外,通过包含位置编码,双谱也得到了忠实再现。最后,我们通过将25 (Mpc h^-1)^3的CAMELS体积放大到完整的205 (Mpc h^-1)^3的TNG300-2体积,而无需微调,证明了Cosmo-FOLD的泛化能力。Cosmo-FOLD为宇宙学尺度的全场级基于模拟的推理打开了大门。

🔬 方法详解

问题定义:宇宙学研究中,精确模拟宇宙大尺度结构演化需要大量的计算资源。传统的流体动力学模拟计算成本高昂,限制了研究人员探索不同宇宙学参数和物理模型的能力。因此,如何降低宇宙学模拟的计算成本,同时保持模拟结果的准确性,是一个重要的挑战。

核心思路:Cosmo-FOLD的核心思路是利用概率扩散模型学习宇宙学场的潜在表示,并利用该表示生成新的宇宙学场。通过在小体积上训练扩散模型,然后将其应用于生成更大体积的宇宙学场,从而实现计算成本的降低。重叠潜在扩散的设计允许模型学习局部结构之间的关系,从而更好地捕捉宇宙学场的复杂性。

技术框架:Cosmo-FOLD的整体框架包括以下几个主要阶段:1) 数据准备:从现有的宇宙学模拟数据集中提取小体积的训练数据。2) 模型训练:使用提取的数据训练一个重叠潜在扩散模型。该模型学习将输入场编码到潜在空间,然后从潜在空间解码生成新的场。3) 场生成:使用训练好的模型,以给定的输入场为条件,生成更大体积的宇宙学场。4) 结果评估:评估生成的宇宙学场的统计特性,如功率谱和双谱,并与原始模拟结果进行比较。

关键创新:Cosmo-FOLD的关键创新在于以下几点:1) 使用重叠潜在扩散模型,能够更好地捕捉宇宙学场的局部结构和长程关联。2) 提出了一种“放大”技术,即在小体积上训练模型,然后将其应用于生成更大体积的场,从而显著降低计算成本。3) 通过包含位置编码,能够更准确地重现宇宙学场的双谱。

关键设计:Cosmo-FOLD的关键设计包括:1) 使用U-Net作为扩散模型的基本架构。2) 使用位置编码来增强模型对空间信息的感知能力。3) 使用重叠窗口来提取训练数据,从而使模型能够学习局部结构之间的关系。4) 损失函数包括重建损失和对抗损失,以确保生成的宇宙学场的准确性和真实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Cosmo-FOLD在生成TNG300-2暗物质密度和气体温度场时,仅使用原始模拟体积的1%进行训练,即可在单个GPU上快速生成结果。生成的场能够重现大型相干暗物质丝状结构,且功率谱在波数k <= 5 h Mpc^-1范围内与原始模拟结果的误差小于10%。此外,Cosmo-FOLD还成功地将CAMELS体积放大到TNG300-2体积,无需进行微调,展示了其良好的泛化能力。

🎯 应用场景

Cosmo-FOLD可应用于快速生成大规模宇宙学模拟数据,加速宇宙学参数估计和模型验证。它能够辅助研究暗物质分布、星系形成等问题,并为基于模拟的宇宙学推理提供有力工具。该方法还可推广到其他科学领域,如气候模拟、材料科学等,具有广泛的应用前景。

📄 摘要(原文)

We demonstrate the capabilities of probabilistic diffusion models to reduce dramatically the computational cost of expensive hydrodynamical simulations to study the relationship between observable baryonic cosmological probes and dark matter at field level and well into the non-linear regime. We introduce a novel technique, Cosmo-FOLD (Cosmological Fields via Overlap Latent Diffusion) to rapidly generate accurate and arbitrarily large cosmological and astrophysical 3-dimensional fields, conditioned on a given input field. We are able to generate TNG300-2 dark matter density and gas temperature fields from a model trained only on ~1% of the volume (a process we refer to as `upscaling'), reproducing both large scale coherent dark matter filaments and power spectra to within 10% for wavenumbers k <= 5 h Mpc^-1. These results are obtained within a small fraction of the original simulation cost and produced on a single GPU. Beyond one and two points statistics, the bispectrum is also faithfully reproduced through the inclusion of positional encodings. Finally, we demonstrate Cosmo-FOLD's generalisation capabilities by upscaling a CAMELS volume of 25 (Mpc h^-1)^3 to a full TNG300-2 volume of 205 (Mpc h^-1)^3$ with no fine-tuning. Cosmo-FOLD opens the door to full field-level simulation-based inference on cosmological scale.