FF-JEPA: Long-Horizon Planning in World Models with Latent Planners

作者: Sergi Masip, Jonathan Swinnen, Yutong Hu, Renaud Detry, Tinne Tuytelaars

分类: cs.AI

发布日期: 2026-06-08

💡 一句话要点

提出FF-JEPA以解决长时间规划中的目标图像依赖问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 长时间规划 世界建模 潜在规划器 无目标规划 层次化方法

📋 核心要点

现有的JEPA方法在长时间规划中计算开销过大，并且通常需要明确的目标状态图像，限制了其在真实任务中的应用。
本文提出的FF-JEPA通过引入一个无动作的潜在规划器，预测当前状态下的下一个子目标，从而消除了对目标图像的需求。
在PushT任务上的初步实验结果显示，FF-JEPA有效地解决了平面世界模型的长时间崩溃问题，展现出良好的规划能力。

📝 摘要（中文）

联合嵌入预测架构（JEPA）在世界建模方面展现出良好能力，但在长时间规划中存在计算开销大和对目标状态图像依赖的问题。本文提出了前向前向JEPA（FF-JEPA），一种层次化方法，利用两个前向动态模型，去除了对目标图像的需求，并通过将复杂轨迹分解为一系列可处理的短期优化问题，实现了长时间规划。初步结果表明，FF-JEPA在PushT任务上成功克服了平面世界模型的长时间崩溃，展现了无目标规划的潜力。

🔬 方法详解

问题定义：本文旨在解决现有JEPA方法在长时间规划中的高计算成本和对目标图像的依赖问题。这些问题限制了其在复杂真实环境中的应用。

核心思路：FF-JEPA通过引入一个无动作的潜在规划器，能够在不依赖目标图像的情况下进行长时间规划。该方法将复杂的轨迹规划任务分解为一系列短期优化问题，从而降低了计算复杂度。

技术框架：FF-JEPA的整体架构包括两个主要模块：一个标准的动作条件前向模型和一个无动作的潜在规划器。前者用于生成动作序列，后者则负责预测下一个子目标。

关键创新：FF-JEPA的核心创新在于其层次化的规划策略，通过无动作的潜在规划器，消除了对目标图像的需求，并有效地处理长时间规划问题。这与传统方法的直接依赖目标图像的方式形成了鲜明对比。

关键设计：在设计中，FF-JEPA采用了特定的损失函数来优化子目标的预测，并通过调整网络结构以适应短期优化问题的需求。这些设计确保了模型在复杂环境中的有效性和灵活性。

🖼️ 关键图片

📊 实验亮点

在PushT任务上的实验结果显示，FF-JEPA显著改善了长时间规划的性能，相较于传统平面世界模型，成功避免了长时间崩溃现象，展现出更高的规划稳定性和效率。

🎯 应用场景

FF-JEPA的研究成果在机器人导航、自动驾驶和智能制造等领域具有广泛的应用潜力。通过消除对目标图像的依赖，该方法能够在动态和不确定的环境中实现更为灵活和高效的规划，推动智能系统的自主决策能力。

📄 摘要（原文）

Joint Embedding Predictive Architectures (JEPAs) have shown promising world modeling capabilities, enabling planning in latent space by optimizing action trajectories using methods like the Cross-Entropy Method (CEM). These methods are, however, too computationally expensive and ineffective for long-horizon planning. Furthermore, these methods typically require an explicit image of the goal state, which is not always possible in real-world tasks. In this work, we tackle these limitations by proposing Forward-Forward-JEPA (FF-JEPA), a hierarchical approach leveraging two forward dynamics models. Alongside a standard action-conditioned forward model, we introduce an action-free latent planner that predicts the next subgoal given the current state. This approach removes the need for goal images and enables long-horizon planning by decomposing complex trajectories into a sequence of tractable, short-term optimization problems. Preliminary results on PushT demonstrate that FF-JEPA successfully overcomes flat world models' long-horizon collapse, highlighting this approach as a promising direction for goal-free planning.

FF-JEPA: Long-Horizon Planning in World Models with Latent Planners

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理