What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?

📄 arXiv: 2512.24497v2 📥 PDF

作者: Basile Terver, Tsung-Yen Yang, Jean Ponce, Adrien Bardes, Yann LeCun

分类: cs.AI, cs.LG, cs.RO, stat.ML

发布日期: 2025-12-30 (更新: 2026-01-08)

备注: V2 of the article: - Added AdaLN-zero - Added table comparing JEPA-WMs with baselines with std translating per-seed variability only, no variability across epochs - Reordered figures in main body of the paper

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于联合嵌入预测世界模型的物理规划方法,优化模型架构与训练目标。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 物理规划 联合嵌入 对比学习 机器人 表征学习 模型优化

📋 核心要点

  1. 现有物理任务智能体难以泛化到新环境,基于世界模型的规划方法是解决该问题的有效途径。
  2. 论文研究了联合嵌入预测世界模型(JEPA-WMs)的关键技术选择,旨在优化模型架构和训练目标。
  3. 实验表明,优化后的模型在模拟和真实机器人数据上,导航和操作任务中均优于现有基线模型。

📝 摘要(中文)

人工智能领域长期存在的挑战是开发能够解决各种物理任务并推广到新的、未见过的任务和环境的智能体。一种流行的最新方法是,从状态-动作轨迹中训练世界模型,然后将其与规划算法一起使用来解决新任务。规划通常在输入空间中执行,但最近的一系列方法引入了在世界模型的学习表征空间中进行优化的规划算法,其承诺是抽象掉不相关的细节,从而提高规划效率。在这项工作中,我们将这一系列模型定义为JEPA-WMs,并研究使该类算法起作用的技术选择。我们对几个关键组件进行了全面的研究,目的是找到该系列中的最佳方法。我们使用模拟环境和真实世界的机器人数据进行了实验,并研究了模型架构、训练目标和规划算法如何影响规划的成功。我们将我们的发现结合起来,提出了一个模型,该模型在导航和操作任务中都优于两个已建立的基线,DINO-WM和V-JEPA-2-AC。代码、数据和检查点可在https://github.com/facebookresearch/jepa-wms 获得。

🔬 方法详解

问题定义:论文旨在解决物理规划任务中,智能体在复杂环境中泛化能力不足的问题。现有方法通常直接在输入空间进行规划,计算成本高昂且易受无关细节干扰。

核心思路:论文的核心在于利用联合嵌入预测世界模型(JEPA-WMs),在学习到的表征空间中进行规划。通过抽象掉不相关的细节,提高规划效率和泛化能力。关键在于优化模型架构和训练目标,使其能够学习到更有效的表征。

技术框架:整体框架包含三个主要部分:1) 世界模型学习:使用状态-动作轨迹训练JEPA-WM,学习环境的动态模型。2) 表征空间规划:在世界模型的表征空间中,使用规划算法(如CEM)寻找最优动作序列。3) 动作执行:将规划得到的动作序列作用于真实环境或模拟器中。

关键创新:论文的关键创新在于对JEPA-WMs的深入分析和优化。通过系统性地研究模型架构、训练目标和规划算法对规划成功的影响,找到了最佳的组合方式。与现有方法相比,该方法能够在学习到的表征空间中进行规划,从而提高效率和泛化能力。

关键设计:论文研究了多种模型架构(如Transformer、CNN)、训练目标(如对比学习、预测损失)和规划算法(如CEM)。关键设计包括:1) 使用对比学习来学习更鲁棒的表征;2) 使用预测损失来提高模型的预测精度;3) 针对特定任务选择合适的模型架构和规划算法。具体的参数设置和网络结构细节可在论文和开源代码中找到。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,优化后的JEPA-WM模型在导航和操作任务中均优于DINO-WM和V-JEPA-2-AC等基线模型。在模拟环境中,导航任务的成功率提升了显著百分比(具体数据未知,请参考论文)。在真实机器人数据上,操作任务的性能也得到了显著提升(具体数据未知,请参考论文)。

🎯 应用场景

该研究成果可应用于机器人导航、操作、自动驾驶等领域。通过学习环境的动态模型,智能体能够更好地理解和预测环境变化,从而做出更合理的决策。该方法有望提高机器人在复杂环境中的自主性和适应性,具有重要的实际应用价值。

📄 摘要(原文)

A long-standing challenge in AI is to develop agents capable of solving a wide range of physical tasks and generalizing to new, unseen tasks and environments. A popular recent approach involves training a world model from state-action trajectories and subsequently use it with a planning algorithm to solve new tasks. Planning is commonly performed in the input space, but a recent family of methods has introduced planning algorithms that optimize in the learned representation space of the world model, with the promise that abstracting irrelevant details yields more efficient planning. In this work, we characterize models from this family as JEPA-WMs and investigate the technical choices that make algorithms from this class work. We propose a comprehensive study of several key components with the objective of finding the optimal approach within the family. We conducted experiments using both simulated environments and real-world robotic data, and studied how the model architecture, the training objective, and the planning algorithm affect planning success. We combine our findings to propose a model that outperforms two established baselines, DINO-WM and V-JEPA-2-AC, in both navigation and manipulation tasks. Code, data and checkpoints are available at https://github.com/facebookresearch/jepa-wms.