Do Video Foundation Models Understand Intuitive Physics? A Layerwise Probing Analysis

📄 arXiv: 2606.09646v1 📥 PDF

作者: Samuele Punzo, Niccolò Caselli, Ippokratis Pantelidis, Francesco Massafra, Salvatore Lo Sardo, Mohammadreza Salehi

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-06-08


💡 一句话要点

研究视频基础模型是否理解直观物理知识

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 直观物理 预训练模型 层次分析 时间动态

📋 核心要点

  1. 现有视频模型在理解直观物理知识方面的能力尚不明确,尤其是在不同层次和模型类型中的表现差异。
  2. 论文通过冻结特征探测的方法,比较了不同类型的视频模型在编码直观物理信息方面的表现,提出了层次分析的视角。
  3. 实验结果显示,V-JEPA在各项基准测试中表现最佳,尤其是在处理时间动态时,表明预训练模型中物理知识的可访问性与模型结构密切相关。

📝 摘要(中文)

本研究探讨了预训练的视频基础模型是否在其冻结表示中编码了直观物理信息,以及这种信息在不同模型家族、层次和探测类型之间的变化。通过在IntPhys2和最小视频对(MVP)上进行冻结特征探测,我们比较了预测联合嵌入模型(V-JEPA)、掩蔽重建模型(VideoMAE)和基于扩散的视频生成器(LTX-Video)。结果表明,V-JEPA在各基准测试中表现最佳,尤其是在建模时间动态的探测器上,而VideoMAE保持竞争力,LTX-Video则恢复了较弱但非平凡的信号。分层分析显示,物理相关信息在早期层次中最弱,在中后层次中最易获取,时间控制实验表明,打乱帧顺序显著降低了性能,尤其是在MVP上。这些结果表明,预训练视频表示中直观物理知识的出现是可靠的,但其可访问性在很大程度上依赖于预训练范式、表示深度和读出机制。

🔬 方法详解

问题定义:本研究旨在探讨预训练视频基础模型是否能够有效编码直观物理知识,以及这种知识在不同模型和层次中的表现差异。现有方法在这一领域的研究相对较少,缺乏系统的比较和分析。

核心思路:论文采用冻结特征探测的方法,分析不同视频模型(如V-JEPA、VideoMAE和LTX-Video)在编码物理知识方面的能力,重点关注模型的层次结构和探测机制对结果的影响。

技术框架:研究首先在IntPhys2和MVP数据集上进行实验,使用冻结特征进行探测,比较不同模型的表现。通过层次分析,研究物理相关信息在模型不同层次中的分布情况,并进行时间控制实验以评估帧顺序对性能的影响。

关键创新:本研究的主要创新在于通过层次分析揭示了直观物理知识在预训练视频模型中的分布特征,特别是强调了中后层次对物理信息的更好表示能力,这与传统的模型评估方法存在显著区别。

关键设计:在实验中,采用了多种探测器来评估模型的性能,特别关注时间动态的建模。同时,设计了特定的实验来打乱帧顺序,以观察其对模型性能的影响,确保结果的可靠性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,V-JEPA在所有基准测试中表现最佳,尤其是在处理时间动态的探测器上,性能显著优于其他模型。具体而言,V-JEPA在MVP数据集上的表现提升幅度明显,表明其在理解物理知识方面的优势。

🎯 应用场景

该研究的潜在应用领域包括机器人视觉、自动驾驶、视频分析等,能够帮助提升模型在复杂场景中的物理推理能力。通过理解视频模型对直观物理知识的编码,未来可以更好地设计和优化视频理解系统,推动智能系统在动态环境中的应用。

📄 摘要(原文)

We study whether pretrained video foundation models encode intuitive-physics information in their frozen representations, and how this information varies across model families, layers, and probe types. Using frozen-feature probing on IntPhys2 and Minimal Video Pairs (MVP), we compare predictive joint-embedding models (V-JEPA), masked reconstruction models (VideoMAE), and a diffusion-based video generator (LTX-Video). V-JEPA achieves the strongest overall results across benchmarks, especially with probes that model temporal dynamics, while VideoMAE remains competitive and LTX-Video recovers weaker but non-trivial signal. Layerwise analyses show that physics-relevant information is weakest in early layers and becomes most accessible at intermediate-to-late depth, and temporal controls show that disrupting frame order substantially reduces performance, especially on MVP. Together, these results suggest that intuitive-physics knowledge emerges reliably in pretrained video representations, but its accessibility depends strongly on pretraining paradigm, representational depth, and readout mechanism.