Assessing the Robustness of Climate Foundation Models under No-Analog Distribution Shifts
作者: Maria Conchita Agana Navarro, Geng Li, Theo Wolf, Maria Perez-Ortiz
分类: cs.LG, cs.AI
发布日期: 2026-03-24
备注: Accepted at Machine Learning Earth
💡 一句话要点
评估气候基础模型在非相似分布偏移下的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 气候模拟 分布外泛化 鲁棒性评估 气候基础模型 非平稳性 时间外推 情景强迫 气候变化预测
📋 核心要点
- 气候变化导致数据分布发生显著偏移,使得传统气候模拟器难以泛化到未来的“非相似”气候状态。
- 通过限制模型仅使用历史数据进行训练,并结合时间外推和跨情景强迫转移两种策略,评估模型在分布外数据上的鲁棒性。
- 实验结果表明,即使是高性能的ClimaX模型,在极端气候情景下也会出现显著的性能下降,降水误差增加高达8.44%。
📝 摘要(中文)
气候变化加速引入了显著的非平稳性,对基于机器学习的气候模拟器在训练分布之外的泛化能力提出了挑战。虽然这些模拟器为传统地球系统模型提供了计算高效的替代方案,但在“非相似”未来气候状态下,它们的可靠性仍然是一个潜在的瓶颈。本文将“非相似”未来气候状态定义为外部强迫驱动系统进入超出历史训练数据经验范围的条件。评估这种可靠性的一个根本挑战是数据污染;因为许多模型都是在已经包含未来情景的模拟上训练的,所以真正的分布外(OOD)性能常常被掩盖。为了解决这个问题,本文对三种最先进的架构进行了OOD鲁棒性基准测试:U-Net、ConvLSTM和ClimaX基础模型,特别限制在仅历史训练范围(1850-2014)。使用两种互补策略评估这些模型:(i)时间外推到最近的气候(2015-2023)和(ii)跨不同排放路径的跨情景强迫转移。分析表明,存在准确性与稳定性之间的权衡:虽然ClimaX基础模型实现了最低的绝对误差,但它在分布转移下表现出更高的相对性能变化,在极端强迫情景下,降水误差增加了高达8.44%。这些发现表明,当限制在历史训练动态时,即使是高容量的基础模型也对外部强迫轨迹敏感。结果强调了情景感知训练和严格的OOD评估协议的必要性,以确保气候模拟器在变化气候下的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决气候变化背景下,气候模拟器在面对与历史数据分布不同的未来气候情景时,泛化能力不足的问题。现有气候模拟器通常在包含未来情景的数据上进行训练,导致无法真实评估其在“非相似”气候状态下的性能。因此,如何评估和提升气候模拟器在真实分布外数据上的鲁棒性是一个关键挑战。
核心思路:论文的核心思路是将模型训练限制在历史数据范围内,然后通过两种方式评估模型在分布外数据上的性能:一是将模型预测结果外推到近期气候数据(2015-2023);二是评估模型在不同排放情景下的表现。通过这种方式,可以更真实地评估模型在面对未来“非相似”气候状态时的鲁棒性。
技术框架:论文的技术框架主要包括三个部分:数据准备、模型训练和性能评估。数据准备阶段,作者将气候数据划分为历史数据(1850-2014)和近期数据(2015-2023)。模型训练阶段,作者使用U-Net、ConvLSTM和ClimaX三种模型,并仅使用历史数据进行训练。性能评估阶段,作者使用时间外推和跨情景强迫转移两种策略,评估模型在分布外数据上的性能。
关键创新:论文最重要的技术创新点在于其评估气候模拟器鲁棒性的方法。通过限制模型仅使用历史数据进行训练,并结合时间外推和跨情景强迫转移两种策略,论文能够更真实地评估模型在面对未来“非相似”气候状态时的性能。这种评估方法可以帮助研究人员更好地了解气候模拟器的局限性,并开发更鲁棒的气候模拟器。
关键设计:论文的关键设计包括:(1) 限制模型仅使用1850-2014年的历史数据进行训练,避免数据污染;(2) 使用时间外推(2015-2023)和跨情景强迫转移两种策略,全面评估模型的OOD性能;(3) 评估指标包括绝对误差和相对性能变化,以衡量模型在不同情景下的稳定性和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是高性能的ClimaX基础模型,在仅使用历史数据训练的情况下,其在极端气候情景下的性能也会显著下降。具体而言,在极端强迫情景下,ClimaX模型的降水误差增加了高达8.44%。这一结果突出了情景感知训练和严格OOD评估的重要性。
🎯 应用场景
该研究成果可应用于气候变化预测、气候风险评估和气候适应性规划等领域。通过评估和提升气候模拟器在非相似分布下的鲁棒性,可以提高气候预测的准确性和可靠性,为决策者提供更可靠的气候信息,从而更好地应对气候变化带来的挑战。
📄 摘要(原文)
The accelerating pace of climate change introduces profound non-stationarities that challenge the ability of Machine Learning based climate emulators to generalize beyond their training distributions. While these emulators offer computationally efficient alternatives to traditional Earth System Models, their reliability remains a potential bottleneck under "no-analog" future climate states, which we define here as regimes where external forcing drives the system into conditions outside the empirical range of the historical training data. A fundamental challenge in evaluating this reliability is data contamination; because many models are trained on simulations that already encompass future scenarios, true out-of-distribution (OOD) performance is often masked. To address this, we benchmark the OOD robustness of three state-of-the-art architectures: U-Net, ConvLSTM, and the ClimaX foundation model specifically restricted to a historical-only training regime (1850-2014). We evaluate these models using two complementary strategies: (i) temporal extrapolation to the recent climate (2015-2023) and (ii) cross-scenario forcing shifts across divergent emission pathways. Our analysis within this experimental setup reveals an accuracy vs. stability trade-off: while the ClimaX foundation model achieves the lowest absolute error, it exhibits higher relative performance changes under distribution shifts, with precipitation errors increasing by up to 8.44% under extreme forcing scenarios. These findings suggest that when restricted to historical training dynamics, even high-capacity foundation models are sensitive to external forcing trajectories. Our results underscore the necessity of scenario-aware training and rigorous OOD evaluation protocols to ensure the robustness of climate emulators under a changing climate.