Data-Driven Integration Kernels for Interpretable Nonlocal Operator Learning
作者: Savannah L. Ferretti, Jerry Lin, Sara Shamekh, Jane W. Baldwin, Michael S. Pritchard, Tom Beucler
分类: cs.LG, physics.ao-ph
发布日期: 2026-03-11
备注: 12 pages, 4 figures, 1 table
💡 一句话要点
提出数据驱动积分核,用于可解释的非局部算子学习,应用于气候过程建模。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 非局部算子学习 可解释性 气候建模 积分核 数据驱动 神经网络 时空预测
📋 核心要点
- 气候过程建模中,现有机器学习方法难以解释非局部信息,且易过拟合。
- 提出数据驱动积分核框架,分离非局部信息聚合与局部非线性预测,提升模型可解释性。
- 实验表明,该方法在南亚季风降水预测中,以更少参数达到接近基线的性能。
📝 摘要(中文)
机器学习模型能够表示气候过程中水平空间、高度和时间上的非局部性,通常以高度非线性的方式组合这些维度上的信息。虽然这可以提高预测能力,但随着非局部信息范围的扩大,学习到的关系变得难以解释,并且容易过度拟合。为了解决这个问题,我们引入了数据驱动的积分核,该框架通过显式地将非局部信息聚合与局部非线性预测分离,为非局部算子学习增加了结构。每个时空预测变量首先使用可学习的核(定义为水平空间、高度和/或时间上的连续加权函数)进行积分,然后仅将局部非线性映射应用于生成的核积分特征和任何可选的局部输入。这种设计将非线性交互限制在一小组积分特征中,并使每个核可以直接解释为加权模式,揭示哪些水平位置、垂直层和过去的时间步长对预测贡献最大。我们使用具有递增结构的神经网络模型层次结构(包括基线、非参数核和参数核模型)演示了南亚季风降水的框架。 在这个层次结构中,基于核的模型以远少于可训练参数实现了接近基线的性能,表明当施加适当的结构约束时,可以通过一小组可解释的积分来捕获大部分相关的非局部信息。
🔬 方法详解
问题定义:现有机器学习模型在气候过程建模中,虽然能够捕捉非局部信息,但由于其高度非线性的特性,导致模型难以解释,并且容易随着非局部信息范围的扩大而出现过拟合现象。因此,如何构建一个既能有效利用非局部信息,又具有良好可解释性的模型是一个关键问题。
核心思路:论文的核心思路是将非局部信息的聚合与局部非线性预测分离。通过引入可学习的积分核,首先对时空预测变量进行积分,然后再进行局部非线性映射。这样做的目的是将非线性交互限制在一小组积分特征中,从而提高模型的可解释性。积分核可以被解释为加权模式,揭示哪些位置、高度和时间步长对预测贡献最大。
技术框架:该框架包含两个主要阶段:1) 非局部信息聚合阶段:使用可学习的积分核对输入特征进行加权积分,得到一组积分特征。积分核可以是参数化的或非参数化的,用于捕捉不同位置、高度和时间步长对预测的影响。2) 局部非线性预测阶段:将积分特征和可选的局部输入作为输入,通过一个局部非线性映射(例如神经网络)进行预测。
关键创新:该方法最重要的创新点在于引入了数据驱动的积分核,将非局部信息聚合与局部非线性预测显式分离。与传统的端到端模型相比,该方法具有更好的可解释性,并且能够通过结构约束来减少模型的参数量。
关键设计:积分核的设计是关键。论文中考虑了参数化和非参数化两种核函数。参数化核函数可以使用神经网络进行学习,而非参数化核函数可以直接从数据中学习。损失函数通常包括预测误差项,并且可以添加正则化项来约束核函数的形状,例如鼓励核函数的平滑性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于核的模型在南亚季风降水预测中,使用远少于基线模型的可训练参数,实现了接近基线的性能。这表明通过引入适当的结构约束,可以有效地捕捉相关的非局部信息,并提高模型的可解释性。具体来说,参数化核模型和非参数化核模型都表现出良好的性能,验证了该框架的有效性。
🎯 应用场景
该研究成果可应用于气候科学、地球物理学等领域,用于理解和预测各种时空变化过程,例如季风降水、海表温度变化等。通过可解释的积分核,研究人员可以更好地理解哪些因素对预测结果有重要影响,从而为气候变化研究和预测提供更可靠的依据。此外,该方法还可以推广到其他具有非局部特性的机器学习问题中。
📄 摘要(原文)
Machine learning models can represent climate processes that are nonlocal in horizontal space, height, and time, often by combining information across these dimensions in highly nonlinear ways. While this can improve predictive skill, it makes learned relationships difficult to interpret and prone to overfitting as the extent of nonlocal information grows. We address this challenge by introducing data-driven integration kernels, a framework that adds structure to nonlocal operator learning by explicitly separating nonlocal information aggregation from local nonlinear prediction. Each spatiotemporal predictor field is first integrated using learnable kernels (defined as continuous weighting functions over horizontal space, height, and/or time), after which a local nonlinear mapping is applied only to the resulting kernel-integrated features and any optional local inputs. This design confines nonlinear interactions to a small set of integrated features and makes each kernel directly interpretable as a weighting pattern that reveals which horizontal locations, vertical levels, and past timesteps contribute most to the prediction. We demonstrate the framework for South Asian monsoon precipitation using a hierarchy of neural network models with increasing structure, including baseline, nonparametric kernel, and parametric kernel models. Across this hierarchy, kernel-based models achieve near-baseline performance with far fewer trainable parameters, showing that much of the relevant nonlocal information can be captured through a small set of interpretable integrations when appropriate structural constraints are imposed.