FF-JEPA: Long-Horizon Planning in World Models with Latent Planners

📄 arXiv: 2606.09311v1 📥 PDF

作者: Sergi Masip, Jonathan Swinnen, Yutong Hu, Renaud Detry, Tinne Tuytelaars

分类: cs.AI

发布日期: 2026-06-08


💡 一句话要点

提出FF-JEPA以解决长时间规划中的目标图像依赖问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 长时间规划 世界建模 潜在规划器 无目标规划 层次化方法

📋 核心要点

  1. 现有的JEPA方法在长时间规划中计算开销过大,并且通常需要明确的目标状态图像,限制了其在真实任务中的应用。
  2. 本文提出的FF-JEPA通过引入一个无动作的潜在规划器,预测当前状态下的下一个子目标,从而消除了对目标图像的需求。
  3. 在PushT任务上的初步实验结果显示,FF-JEPA有效地解决了平面世界模型的长时间崩溃问题,展现出良好的规划能力。

📝 摘要(中文)

联合嵌入预测架构(JEPA)在世界建模方面展现出良好能力,但在长时间规划中存在计算开销大和对目标状态图像依赖的问题。本文提出了前向前向JEPA(FF-JEPA),一种层次化方法,利用两个前向动态模型,去除了对目标图像的需求,并通过将复杂轨迹分解为一系列可处理的短期优化问题,实现了长时间规划。初步结果表明,FF-JEPA在PushT任务上成功克服了平面世界模型的长时间崩溃,展现了无目标规划的潜力。

🔬 方法详解

问题定义:本文旨在解决现有JEPA方法在长时间规划中的高计算成本和对目标图像的依赖问题。这些问题限制了其在复杂真实环境中的应用。

核心思路:FF-JEPA通过引入一个无动作的潜在规划器,能够在不依赖目标图像的情况下进行长时间规划。该方法将复杂的轨迹规划任务分解为一系列短期优化问题,从而降低了计算复杂度。

技术框架:FF-JEPA的整体架构包括两个主要模块:一个标准的动作条件前向模型和一个无动作的潜在规划器。前者用于生成动作序列,后者则负责预测下一个子目标。

关键创新:FF-JEPA的核心创新在于其层次化的规划策略,通过无动作的潜在规划器,消除了对目标图像的需求,并有效地处理长时间规划问题。这与传统方法的直接依赖目标图像的方式形成了鲜明对比。

关键设计:在设计中,FF-JEPA采用了特定的损失函数来优化子目标的预测,并通过调整网络结构以适应短期优化问题的需求。这些设计确保了模型在复杂环境中的有效性和灵活性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在PushT任务上的实验结果显示,FF-JEPA显著改善了长时间规划的性能,相较于传统平面世界模型,成功避免了长时间崩溃现象,展现出更高的规划稳定性和效率。

🎯 应用场景

FF-JEPA的研究成果在机器人导航、自动驾驶和智能制造等领域具有广泛的应用潜力。通过消除对目标图像的依赖,该方法能够在动态和不确定的环境中实现更为灵活和高效的规划,推动智能系统的自主决策能力。

📄 摘要(原文)

Joint Embedding Predictive Architectures (JEPAs) have shown promising world modeling capabilities, enabling planning in latent space by optimizing action trajectories using methods like the Cross-Entropy Method (CEM). These methods are, however, too computationally expensive and ineffective for long-horizon planning. Furthermore, these methods typically require an explicit image of the goal state, which is not always possible in real-world tasks. In this work, we tackle these limitations by proposing Forward-Forward-JEPA (FF-JEPA), a hierarchical approach leveraging two forward dynamics models. Alongside a standard action-conditioned forward model, we introduce an action-free latent planner that predicts the next subgoal given the current state. This approach removes the need for goal images and enables long-horizon planning by decomposing complex trajectories into a sequence of tractable, short-term optimization problems. Preliminary results on PushT demonstrate that FF-JEPA successfully overcomes flat world models' long-horizon collapse, highlighting this approach as a promising direction for goal-free planning.