The Observer Effect in World Models: Invasive Adaptation Corrupts Latent Physics

📄 arXiv: 2602.12218v1 📥 PDF

作者: Christian Internò, Jumpei Yamaguchi, Loren Amdahl-Culleton, Markus Olhofer, David Klindt, Barbara Hammer

分类: cs.LG, cs.AI

发布日期: 2026-02-12


💡 一句话要点

提出PhyIP评估协议以解决物理模型适应性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 物理模型 自监督学习 非侵入性评估 线性解码 流体动力学 轨道力学 神经网络 分布外评估

📋 核心要点

  1. 现有方法在评估神经模型内化物理法则时面临挑战,尤其是在分布外变化下,适应性评估可能导致结果混淆。
  2. 论文提出了PhyIP评估协议,旨在通过测试冻结表示的线性可解性来非侵入性地评估物理量。
  3. 实验结果显示,PhyIP在流体动力学和轨道力学中能够有效恢复物理结构,而适应性评估则导致性能显著下降。

📝 摘要(中文)

确定神经模型是否将物理法则内化为世界模型,而非利用统计捷径,尤其在分布外(OOD)变化下,仍然具有挑战性。标准评估通常通过下游适应(如微调或高容量探测器)来测试潜在能力,但这些干预可能会改变被测量的表示,从而混淆自监督学习(SSL)期间所学内容。我们提出了一种非侵入性评估协议PhyIP,测试物理量是否可以从冻结的表示中线性解码。实验结果表明,当SSL实现低误差时,潜在结构变得线性可访问。PhyIP在OOD测试中恢复了内能和牛顿反平方定律,而基于适应的评估则可能导致结构崩溃。这些发现表明,适应性评估可能会掩盖潜在结构,而低容量探测器提供了更准确的物理世界模型评估。

🔬 方法详解

问题定义:本论文旨在解决神经模型在自监督学习中是否真正内化物理法则的问题。现有的适应性评估方法可能会改变模型的表示,导致评估结果不准确。

核心思路:论文提出的PhyIP评估协议通过测试冻结的表示是否能够线性解码物理量,来避免适应性干预对评估结果的影响。这一方法基于线性表示假设,旨在提供更可靠的评估。

技术框架:PhyIP的整体架构包括冻结神经网络的表示,并通过线性解码器来测试物理量的可解性。实验涉及流体动力学和轨道力学两个领域,评估模型在OOD测试中的表现。

关键创新:论文的主要创新在于提出了一种非侵入性的评估方法,能够在不改变模型表示的情况下,准确评估其对物理法则的内化能力。这与传统的适应性评估方法形成鲜明对比。

关键设计:在实验中,采用了低容量探测器来进行线性解码,设置了特定的损失函数以优化解码性能,并在不同的物理场景中进行了广泛的测试。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,PhyIP在流体动力学和轨道力学中能够有效恢复内能和牛顿反平方定律,在OOD测试中相关性达到$ρ> 0.90$,而适应性评估的相关性仅为$ρ ext{≈} 0.05$,显示出显著的性能差异。

🎯 应用场景

该研究的潜在应用领域包括物理模拟、机器人控制和自动驾驶等。通过更准确地评估神经网络对物理法则的理解,能够提升智能系统在复杂环境中的决策能力和适应性,具有重要的实际价值和未来影响。

📄 摘要(原文)

Determining whether neural models internalize physical laws as world models, rather than exploiting statistical shortcuts, remains challenging, especially under out-of-distribution (OOD) shifts. Standard evaluations often test latent capability via downstream adaptation (e.g., fine-tuning or high-capacity probes), but such interventions can change the representations being measured and thus confound what was learned during self-supervised learning (SSL). We propose a non-invasive evaluation protocol, PhyIP. We test whether physical quantities are linearly decodable from frozen representations, motivated by the linear representation hypothesis. Across fluid dynamics and orbital mechanics, we find that when SSL achieves low error, latent structure becomes linearly accessible. PhyIP recovers internal energy and Newtonian inverse-square scaling on OOD tests (e.g., $ρ> 0.90$). In contrast, adaptation-based evaluations can collapse this structure ($ρ\approx 0.05$). These findings suggest that adaptation-based evaluation can obscure latent structures and that low-capacity probes offer a more accurate evaluation of physical world models.