The impact of internal variability on benchmarking deep learning climate emulators

作者: Björn Lütjens, Raffaele Ferrari, Duncan Watson-Parris, Noelle Selin

分类: cs.LG, cs.AI, cs.CE, cs.CV

发布日期: 2024-08-09 (更新: 2025-03-31)

期刊: (2025) Journal of Advances in Modeling Earth Systems, 17

DOI: 10.1029/2024MS004619

💡 一句话要点

揭示内部变率对深度学习气候模拟器基准测试的影响，并提出改进方案。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 气候模拟 深度学习 内部变率 基准测试 模式缩放

📋 核心要点

地球系统模型计算成本高，限制了气候变化研究中排放路径的探索。
研究发现，深度学习气候模拟器可能过度拟合内部变率噪声，影响性能。
通过增加模拟数量并更新基准目标，改进了深度学习模拟器的性能。

📝 摘要（中文）

地球系统模型（ESMs）计算成本高昂，限制了其在探索多种排放路径下的气候结果中的应用。更高效的模拟器可以近似ESMs，直接将排放映射到气候结果。本文研究了数据驱动气候模拟中一个流行的基准测试ClimateBench，目前基于深度学习的模拟器在该基准测试上表现最佳。我们将这些深度学习模拟器与基于线性回归的模拟器（类似于模式缩放）进行比较，结果表明，在线性程度较高的地表温度和降水等区域气候变量的模拟中，线性回归模拟器优于拥有1亿参数的深度学习基础模型ClimaX。降水是一个噪声更大的变量，深度学习模拟器可能会过度拟合低频内部变率噪声，从而降低其性能。通过增加每个排放路径的气候模拟数量（从3个到50个），并使用MPI-ESM1.2-LR模型的集合平均值更新基准目标，解决了过拟合问题。使用新目标，线性模式缩放在温度模拟方面仍然更准确，但深度学习技术在降水模拟方面可以超越它。代码和数据已开源。

🔬 方法详解

问题定义：现有全复杂度地球系统模型（ESMs）计算成本高昂，难以用于探索多种排放路径的气候影响。数据驱动的气候模拟器旨在通过学习ESMs的输入输出关系来加速这一过程。然而，现有的深度学习模拟器在ClimateBench等基准测试中，虽然表现出一定的潜力，但可能存在过度拟合内部变率噪声的问题，导致泛化能力下降。

核心思路：本文的核心思路是认识到气候系统存在内部变率，这种变率会引入噪声，影响深度学习模型的训练。为了解决这个问题，作者提出通过增加每个排放路径的模拟数量，并使用集合平均值作为训练目标，来降低内部变率噪声的影响。同时，将深度学习模拟器与线性回归模拟器进行对比，以评估深度学习模型是否过度拟合。

技术框架：研究采用ClimateBench作为基准测试平台，比较了深度学习模拟器（包括ClimaX）和线性回归模拟器的性能。主要流程包括：1) 使用原始ClimateBench数据集训练深度学习和线性回归模型；2) 评估模型在原始基准测试上的性能；3) 增加每个排放路径的模拟数量，并计算集合平均值；4) 使用新的数据集重新训练模型；5) 评估模型在新基准测试上的性能。

关键创新：本文的关键创新在于揭示了内部变率对深度学习气候模拟器性能的影响，并提出了通过增加模拟数量和使用集合平均值来缓解过度拟合问题的方法。此外，通过与线性回归模型的对比，验证了深度学习模型在某些情况下可能过度拟合噪声。

关键设计：研究中，关键的设计包括：1) 使用MPI-ESM1.2-LR模型生成更多的气候模拟数据；2) 计算每个排放路径下多个模拟的集合平均值，作为新的训练目标；3) 使用均方误差（MSE）作为损失函数，评估模型预测结果与目标值之间的差异；4) 对比不同模型（包括ClimaX和线性回归模型）在不同气候变量（如地表温度和降水）上的性能。

🖼️ 关键图片

📊 实验亮点

研究表明，在原始ClimateBench基准测试中，线性回归模拟器在模拟地表温度和降水等区域气候变量时，优于拥有1亿参数的深度学习基础模型ClimaX。通过增加每个排放路径的模拟数量并更新基准目标，深度学习模拟器在降水模拟方面可以超越线性回归模型，表明改进后的训练方法可以有效降低过度拟合问题。

🎯 应用场景

该研究成果可应用于气候变化情景分析、气候政策评估和气候风险管理等领域。通过构建更准确、更可靠的气候模拟器，可以更好地预测未来气候变化趋势，为决策者提供科学依据，制定更有效的应对气候变化策略。此外，该研究也为深度学习在气候科学领域的应用提供了新的思路和方法。

📄 摘要（原文）

Full-complexity Earth system models (ESMs) are computationally very expensive, limiting their use in exploring the climate outcomes of multiple emission pathways. More efficient emulators that approximate ESMs can directly map emissions onto climate outcomes, and benchmarks are being used to evaluate their accuracy on standardized tasks and datasets. We investigate a popular benchmark in data-driven climate emulation, ClimateBench, on which deep learning-based emulators are currently achieving the best performance. We compare these deep learning emulators with a linear regression-based emulator, akin to pattern scaling, and show that it outperforms the incumbent 100M-parameter deep learning foundation model, ClimaX, on 3 out of 4 regionally-resolved climate variables, notably surface temperature and precipitation. While emulating surface temperature is expected to be predominantly linear, this result is surprising for emulating precipitation. Precipitation is a much more noisy variable, and we show that deep learning emulators can overfit to internal variability noise at low frequencies, degrading their performance in comparison to a linear emulator. We address the issue of overfitting by increasing the number of climate simulations per emission pathway (from 3 to 50) and updating the benchmark targets with the respective ensemble averages from the MPI-ESM1.2-LR model. Using the new targets, we show that linear pattern scaling continues to be more accurate on temperature, but can be outperformed by a deep learning-based technique for emulating precipitation. We publish our code and data at github.com/blutjens/climate-emulator.

The impact of internal variability on benchmarking deep learning climate emulators

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理