Towards mechanistic understanding in a data-driven weather model: internal activations reveal interpretable physical features

📄 arXiv: 2512.24440v1 📥 PDF

作者: Theodore MacMillan, Nicholas T. Ouellette

分类: physics.ao-ph, cs.LG, physics.comp-ph

发布日期: 2025-12-30

备注: 18 pages, 13 figures


💡 一句话要点

利用稀疏自编码器,揭示GraphCast内部激活中可解释的物理特征

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 天气模型 可解释性 稀疏自编码器 GraphCast 物理特征

📋 核心要点

  1. 数据驱动的天气模型(如GraphCast)在天气预测上表现出色,但其内部机制如同黑盒,缺乏可解释性。
  2. 该研究利用稀疏自编码器分析GraphCast的中间层,提取可解释的物理特征,并探究其内部表征。
  3. 通过干预模型内部特征,观察对飓风预测的影响,验证了提取特征的物理一致性和可解释性。

📝 摘要(中文)

类似于DeepMind的GraphCast这样的大型数据驱动物理模型,已经在复杂动力学系统的时间算子参数化方面取得了经验性的成功,其精度达到甚至在某些情况下超过了传统的基于物理的求解器。然而,这些数据驱动模型如何执行计算在很大程度上是未知的,并且它们的内部表示是否可解释或在物理上一致仍然是一个悬而未决的问题。本文借鉴大型语言模型中的可解释性研究工具,分析GraphCast中的中间计算层,利用稀疏自编码器来发现模型神经元空间中可解释的特征。我们发现了对应于热带气旋、大气河流、昼夜和季节性行为、大规模降水模式、特定地理编码和海冰范围等各种长度和时间尺度上的独特特征。我们进一步展示了如何通过对模型的预测步骤进行干预来探究这些特征的精确抽象。作为一个案例研究,我们稀疏地修改了GraphCast中对应于热带气旋的特征,并观察到对演变中的飓风的可解释且在物理上一致的修改。这些方法为数据驱动物理模型的黑盒行为提供了一个窗口,并且是朝着实现它们作为值得信赖的预测器和具有科学价值的发现工具的潜力迈出的一步。

🔬 方法详解

问题定义:现有的数据驱动天气模型,例如GraphCast,虽然在预测精度上表现优异,但其内部运作机制如同黑盒,缺乏可解释性。这使得我们难以理解模型是如何做出预测的,也难以信任模型的预测结果,尤其是在极端天气事件的预测中。因此,如何理解数据驱动天气模型的内部表征,并验证其物理一致性,是一个重要的研究问题。

核心思路:该论文的核心思路是借鉴大型语言模型的可解释性研究方法,利用稀疏自编码器来分析GraphCast的中间计算层,从而发现模型神经元空间中可解释的物理特征。通过对这些特征进行干预,观察模型预测结果的变化,从而验证这些特征的物理一致性。这种方法旨在打开数据驱动天气模型的黑盒,揭示其内部运作机制。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 获取GraphCast的中间层激活数据;2) 使用稀疏自编码器对激活数据进行降维和特征提取;3) 分析提取出的特征,识别其对应的物理现象;4) 对模型进行干预,修改特定特征的激活值;5) 观察模型预测结果的变化,验证特征的物理一致性。

关键创新:该研究的关键创新在于将大型语言模型的可解释性研究方法应用于数据驱动天气模型,并成功地提取出了可解释的物理特征。此外,该研究还提出了一种通过干预模型内部特征来验证其物理一致性的方法。这些创新为理解和信任数据驱动天气模型提供了新的思路。

关键设计:在稀疏自编码器的设计上,作者选择了合适的稀疏惩罚项,以鼓励模型学习到稀疏且可解释的特征。在干预实验中,作者精心设计了干预策略,以确保干预只影响目标特征,而不影响其他特征。此外,作者还使用了多种可视化技术来展示提取出的特征和干预实验的结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究成功地在GraphCast的内部激活中发现了对应于热带气旋、大气河流、昼夜和季节性行为、大规模降水模式、特定地理编码和海冰范围等各种物理现象的特征。通过对热带气旋特征的干预实验,观察到对飓风演变的物理一致性影响,验证了提取特征的有效性。

🎯 应用场景

该研究成果可应用于提升数据驱动天气模型的可信度和可解释性,帮助科学家更好地理解天气系统的运作机制。此外,该方法还可以用于诊断模型预测误差,并指导模型改进。未来,该研究有望推动数据驱动天气模型在气候变化研究、极端天气事件预测等领域的应用。

📄 摘要(原文)

Large data-driven physics models like DeepMind's weather model GraphCast have empirically succeeded in parameterizing time operators for complex dynamical systems with an accuracy reaching or in some cases exceeding that of traditional physics-based solvers. Unfortunately, how these data-driven models perform computations is largely unknown and whether their internal representations are interpretable or physically consistent is an open question. Here, we adapt tools from interpretability research in Large Language Models to analyze intermediate computational layers in GraphCast, leveraging sparse autoencoders to discover interpretable features in the neuron space of the model. We uncover distinct features on a wide range of length and time scales that correspond to tropical cyclones, atmospheric rivers, diurnal and seasonal behavior, large-scale precipitation patterns, specific geographical coding, and sea-ice extent, among others. We further demonstrate how the precise abstraction of these features can be probed via interventions on the prediction steps of the model. As a case study, we sparsely modify a feature corresponding to tropical cyclones in GraphCast and observe interpretable and physically consistent modifications to evolving hurricanes. Such methods offer a window into the black-box behavior of data-driven physics models and are a step towards realizing their potential as trustworthy predictors and scientifically valuable tools for discovery.