Do Physics Foundation Models Learn Generalizable Physics? A Bias-Aware Benchmark Across Physical Regimes and Distribution Shifts
作者: Mengdi Chu, Yang Liu, Ayan Biswas, Han-Wei Shen
分类: cs.LG, cs.AI
发布日期: 2026-05-28
备注: 26 pages, 31 figures
💡 一句话要点
构建偏差感知基准以评估物理基础模型的可泛化性
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 物理基础模型 泛化能力 分布偏移 时空预测 模型评估
📋 核心要点
- 现有物理基础模型的评估方法无法有效判断模型是否具备可泛化的物理动态学习能力。
- 本文提出了一个包含多种物理动态和测试环境的基准,以全面评估模型在不同条件下的表现。
- 实验结果表明,当前模型的泛化能力受多种因素影响,简单的扩展方法无法解决其能力偏差问题。
📝 摘要(中文)
近期的物理基础模型声称具备一般的时空预测能力,但其评估往往将性能压缩为固定训练分布下的单一平均分数。这使得判断模型是否学习了可泛化的物理动态变得困难。本文构建了一个包含8种物理动态、3种训练数据混合和25种测试环境的基准,涵盖了分布内、分布偏移和分布外的设置。我们评估了五种物理基础模型架构及每种架构的四个模型变体,结果显示当前模型的泛化能力依赖于物理环境、时间尺度、初始条件设置等因素,简单改善训练数据分布无法完全消除模型的能力偏差。我们认为,提升物理基础模型需要超越模型扩展和数据扩展,向更好地捕捉可转移物理知识的学习机制转变。
🔬 方法详解
问题定义:本文旨在解决物理基础模型在不同物理环境和分布偏移下的泛化能力评估问题。现有方法往往将性能压缩为单一分数,无法揭示模型的真实学习能力。
核心思路:通过构建一个包含多种物理动态和复杂测试环境的基准,评估模型在不同条件下的表现,以揭示其泛化能力的局限性。
技术框架:整体架构包括数据准备、模型训练和评估三个主要阶段。首先,构建多样化的训练和测试数据集;其次,训练多种物理基础模型;最后,进行全面的性能评估。
关键创新:本文的关键创新在于引入了偏差感知的评估基准,能够揭示模型在不同物理环境和条件下的表现差异,超越了传统的单一评估方法。
关键设计:在实验中,采用了多种模型架构和变体,设置了不同的训练数据混合和测试环境,以确保评估的全面性和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,当前物理基础模型在不同物理环境下的表现差异显著,模型的泛化能力受到多种因素的影响。具体而言,模型在特定环境下的性能提升幅度有限,表明需要新的学习机制来捕捉可转移的物理知识。
🎯 应用场景
该研究的潜在应用领域包括物理模拟、机器人控制和智能系统设计等。通过提升物理基础模型的泛化能力,可以在更复杂和多变的环境中实现更准确的预测和决策,具有重要的实际价值和未来影响。
📄 摘要(原文)
Recent physics foundation models claim general spatiotemporal forecasting ability, yet their evaluations often collapse performance into a single average score under a fixed training distribution. This makes it difficult to determine whether a model has learned generalizable physical dynamics or only performs well under particular settings. We construct a benchmark with 8 physical dynamics, 3 training-data mixtures, and 25 test regimes induced by dynamic-scale and initial-condition complexity shifts, covering in-distribution, distribution-shift, and out-of-distribution settings. We evaluate five physics foundation model architectures and four model variants per architecture (scratch and three pretrained sizes), resulting in 60,000 measurements. Our results show that current physics foundation models behave as conditional rather than universal generalists: their generality depends on the physical regime, temporal scale, initial-condition setting, pretraining, model size, and architecture. Improving the training data distribution only partially mitigates this limitation. Pretraining and scaling are also unable to reliably remove their ability biases. We argue that improving physics foundation models requires moving beyond scaling models or expanding data, toward learning mechanisms that better capture transferable physical knowledge across regimes, temporal scales, and distribution shifts.