Entity-Centric World Models: Interaction-Aware Masking for Causal Video Prediction

作者: Santosh Kumar Paidi

分类: cs.CV

发布日期: 2026-05-14

备注: 12 pages, 4 figures

💡 一句话要点

提出交互感知掩码的IA-JEPA模型，用于提升因果视频预测的性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 视频预测 因果推理 自监督学习 交互感知 掩码策略 物理引擎

📋 核心要点

现有基于联合嵌入预测架构(JEPA)的世界模型在语义分类上表现出色，但缺乏对物理因果动态的建模能力。
IA-JEPA通过自监督的运动中心掩码策略，优先关注物理交互，迫使模型学习重建潜在轨迹，而非静态背景。
在CLEVRER数据集上，IA-JEPA在因果推理任务上取得了显著提升，并展现了在真实世界数据集上的泛化能力。

📝 摘要（中文）

本文提出了一种交互感知联合嵌入预测架构(IA-JEPA)，旨在解决现有JEPA模型在视频预测中缺乏因果动态建模的问题。作者认为，传统基于图像块的掩码策略更关注视觉纹理，而忽略了信息量大的运动事件。IA-JEPA采用自监督的运动中心掩码策略，优先关注物理交互，特别是碰撞或动量传递中的实体。通过这种方式，模型被强制重建潜在轨迹，而非静态背景。在CLEVRER基准测试中，IA-JEPA在因果推理任务上取得了14.26%的准确率，显著优于标准图像块掩码基线的3.22%。实验表明，IA-JEPA打破了标准自监督的“静态偏见”，诱导了更高熵、更具区分性的潜在空间（+10%熵增益），并线性化了物理能量（R^2=0.43）。该方法在真实世界的人类动作（Something-Something V2）和零样本物理谜题（PHYRE-Lite）上具有泛化性。研究结果表明，IA-JEPA提供了一种可扩展的、完全自监督的途径，用于构建能够内化物理世界因果结构的基础世界模型。

🔬 方法详解

问题定义：现有基于patch的掩码策略在自监督视频预测中存在“静态偏见”，即模型倾向于关注静态背景纹理，而忽略了包含丰富物理信息的运动和交互事件。这导致模型难以学习到视频中的因果关系，从而影响下游任务的性能。

核心思路：IA-JEPA的核心思路是通过设计一种新的掩码策略，使模型更加关注视频中的交互事件。具体来说，该策略会优先掩盖发生碰撞或动量传递的实体，迫使模型学习这些交互事件的潜在轨迹，从而打破“静态偏见”。

技术框架：IA-JEPA的整体框架基于联合嵌入预测架构(JEPA)。主要包括以下几个模块：1) 视频编码器：将输入视频编码成潜在表示；2) 交互感知掩码模块：根据视频中的运动信息，生成掩码，优先掩盖交互区域；3) 预测器：根据未掩盖的潜在表示，预测被掩盖区域的潜在表示；4) 损失函数：用于训练模型，鼓励模型学习到交互事件的潜在轨迹。

关键创新：IA-JEPA的关键创新在于其交互感知掩码策略。与传统的随机掩码或基于图像块的掩码不同，该策略能够根据视频中的运动信息，动态地调整掩码的位置和形状，从而使模型更加关注交互事件。这种策略能够有效地打破“静态偏见”，提高模型学习因果关系的能力。

关键设计：交互感知掩码模块的关键设计包括：1) 运动估计：使用光流或其它运动估计方法，估计视频中每个像素的运动矢量；2) 交互区域检测：根据运动矢量，检测发生碰撞或动量传递的区域；3) 掩码生成：根据检测到的交互区域，生成掩码，优先掩盖这些区域。损失函数的设计目标是最小化预测的潜在表示与真实的潜在表示之间的差异。具体的网络结构和参数设置未知。

🖼️ 关键图片

📊 实验亮点

IA-JEPA在CLEVRER数据集上取得了显著的性能提升，在因果推理任务上达到了14.26%的准确率，远超基线模型的3.22%。同时，IA-JEPA在Something-Something V2和PHYRE-Lite数据集上也展现了良好的泛化能力，证明了其在真实世界场景中的有效性。此外，实验还表明，IA-JEPA能够打破“静态偏见”，学习到更高熵、更具区分性的潜在空间。

🎯 应用场景

IA-JEPA具有广泛的应用前景，例如机器人导航、自动驾驶、游戏AI等。通过学习物理世界的因果关系，IA-JEPA可以帮助机器人更好地理解周围环境，从而做出更合理的决策。此外，IA-JEPA还可以用于视频编辑、视频生成等领域，例如可以用于生成逼真的物理特效。

📄 摘要（原文）

Learning predictive world models from unlabelled video is a foundational challenge in artificial intelligence. While Joint Embedding Predictive Architectures (JEPA) have set new benchmarks in semantic classification, they often remain physics-blind, failing to capture the causal dynamics necessary for downstream reasoning. We hypothesize that this stems from standard patch-based masking strategies, which prioritize visual texture over rare but informative kinematic events. We propose Interaction-Aware JEPA (IA-JEPA), which utilizes a self-supervised motion-centric masking strategy to prioritize physical interactions. By specifically targeting entities engaged in collisions or momentum transfers, we force the architecture to reconstruct latent trajectories rather than static background features. Evaluated on the CLEVRER benchmark, IA-JEPA achieves 14.26% accuracy on causal reasoning tasks, a significant lead over the 3.22% achieved by standard patch-masked baselines. Crucially, we demonstrate that IA-JEPA breaks the "static bias" of standard self-supervision by inducing a higher-entropy, more discriminative latent space (+10% entropy gain) that linearizes physical energy ($R^2=0.43$). We show that this interaction bias generalizes to real-world human actions (Something-Something V2) and zero-shot physical puzzles (PHYRE-Lite). Our results provide a scalable, fully self-supervised path toward building foundational world models that begin to internalize the causal structure of the physical world.

Entity-Centric World Models: Interaction-Aware Masking for Causal Video Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理