Representation Learning for Spatiotemporal Physical Systems

📄 arXiv: 2603.13227v1 📥 PDF

作者: Helen Qu, Rudy Morel, Michael McCabe, Alberto Bietti, François Lanusse, Shirley Ho, Yann LeCun

分类: cs.LG, cs.CV

发布日期: 2026-03-13

备注: Published at ICLR 2026 Workshop on AI & PDE

🔗 代码/项目: GITHUB


💡 一句话要点

提出时空物理系统表征学习框架,评估自监督方法在物理参数估计中的有效性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 表征学习 自监督学习 时空物理系统 物理参数估计 联合嵌入预测架构

📋 核心要点

  1. 现有方法侧重于下一帧预测,计算成本高,且存在误差累积问题,限制了其在复杂物理系统中的应用。
  2. 该研究关注下游科学任务,如物理参数估计,以此评估表征的物理相关性,为模型选择提供更直接的依据。
  3. 实验表明,通用自监督方法在物理参数估计中表现出色,尤其是在潜在空间学习的方法优于像素级预测方法。

📝 摘要(中文)

针对时空物理系统,现有机器学习方法主要集中于下一帧预测,旨在学习系统演化的精确模拟器。然而,这些模拟器训练计算成本高昂,且存在自回归展开期间误差累积等性能缺陷。本文采取不同的视角,关注预测下一帧之外的科学任务,例如系统控制物理参数的估计。在这些任务上的准确性,为模型表征的物理相关性提供了独特的量化视角。我们评估了通用自监督方法在学习物理基础表征方面的有效性,这些表征可用于下游科学任务。令人惊讶的是,我们发现并非所有为物理建模设计的方法都优于这些任务上的通用自监督学习方法,并且在潜在空间中学习的方法(例如,联合嵌入预测架构,或 JEPAs)优于那些优化像素级预测目标的方法。

🔬 方法详解

问题定义:现有方法主要集中于时空物理系统的下一帧预测,旨在学习精确的系统模拟器。然而,这些模拟器训练成本高昂,并且在自回归展开过程中容易累积误差,导致长期预测性能下降。此外,这些方法通常难以直接评估其学习到的表征与物理规律的相关性。

核心思路:本文的核心思路是将表征学习与下游科学任务(如物理参数估计)联系起来。通过评估模型在这些任务上的表现,可以直接衡量其学习到的表征是否捕获了系统控制参数的物理信息。这种方法避免了直接评估表征的复杂性,转而关注其在实际应用中的有效性。

技术框架:该研究主要评估了各种自监督学习方法在学习物理系统表征方面的能力。这些方法包括通用的自监督学习方法(如对比学习)和专门为物理建模设计的模型。研究人员首先使用这些方法从物理系统的时空数据中学习表征,然后将这些表征用于下游的物理参数估计任务。通过比较不同方法在参数估计任务上的性能,评估其学习到的表征的质量。

关键创新:该研究的关键创新在于将表征学习与下游科学任务联系起来,并以此作为评估表征质量的标准。与传统的基于预测误差的评估方法不同,该研究关注表征在实际应用中的有效性。此外,研究还发现,在潜在空间中学习的方法(如JEPAs)在物理参数估计任务中表现更好,这表明学习抽象的、与像素无关的表征对于理解物理系统至关重要。

关键设计:该研究的关键设计包括:1) 选择合适的下游任务(物理参数估计)来评估表征的质量;2) 比较不同类型的自监督学习方法,包括通用方法和专门为物理建模设计的方法;3) 关注在潜在空间中学习的方法,并分析其优势;4) 使用标准数据集和评估指标,以确保结果的可重复性和可比性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,并非所有为物理建模设计的自监督方法都优于通用自监督学习方法。令人惊讶的是,在潜在空间中学习的方法(例如,联合嵌入预测架构,或 JEPAs)优于那些优化像素级预测目标的方法。这表明学习抽象的、与像素无关的表征对于理解物理系统至关重要。具体性能数据和对比基线在论文中详细给出。

🎯 应用场景

该研究成果可应用于多个领域,包括气候建模、流体动力学、材料科学和天体物理学。通过学习物理系统的高质量表征,可以提高物理参数估计的准确性,从而改进模拟预测、优化实验设计并加速科学发现。此外,该方法还可以用于开发更高效的物理系统模拟器,降低计算成本并提高预测精度。

📄 摘要(原文)

Machine learning approaches to spatiotemporal physical systems have primarily focused on next-frame prediction, with the goal of learning an accurate emulator for the system's evolution in time. However, these emulators are computationally expensive to train and are subject to performance pitfalls, such as compounding errors during autoregressive rollout. In this work, we take a different perspective and look at scientific tasks further downstream of predicting the next frame, such as estimation of a system's governing physical parameters. Accuracy on these tasks offers a uniquely quantifiable glimpse into the physical relevance of the representations of these models. We evaluate the effectiveness of general-purpose self-supervised methods in learning physics-grounded representations that are useful for downstream scientific tasks. Surprisingly, we find that not all methods designed for physical modeling outperform generic self-supervised learning methods on these tasks, and methods that learn in the latent space (e.g., joint embedding predictive architectures, or JEPAs) outperform those optimizing pixel-level prediction objectives. Code is available at https://github.com/helenqu/physical-representation-learning.