ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

📄 arXiv: 2603.22281v1 📥 PDF

作者: Haichao Zhang, Yijiang Li, Shwai He, Tushar Nagarajan, Mingfei Chen, Jianglin Lu, Ang Li, Yun Fu

分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.RO

发布日期: 2026-03-23

备注: 10 pages, 5 figures


💡 一句话要点

提出ThinkJEPA,利用视觉-语言模型增强潜在世界模型,提升长时域预测能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 潜在世界模型 视觉-语言模型 长时域预测 机器人操作 语义理解

📋 核心要点

  1. 现有潜在世界模型在长时域语义理解和预测方面存在不足,易受局部信息干扰。
  2. ThinkJEPA利用VLM的语义推理能力,通过双时间路径融合密集帧动态和长时域语义指导。
  3. 实验表明,ThinkJEPA在手部操作轨迹预测上优于VLM和JEPA基线,提升了长时域预测的鲁棒性。

📝 摘要(中文)

近期的潜在世界模型(例如V-JEPA2)在从视频观测中预测未来世界状态方面展现了潜力。然而,从短观测窗口进行密集预测限制了时间上下文,并且可能使预测器偏向局部、低层次的外推,从而难以捕捉长时域语义并降低下游效用。相比之下,视觉-语言模型(VLM)通过推理均匀采样的帧来提供强大的语义基础和通用知识,但由于计算驱动的稀疏采样、将细粒度交互状态压缩为面向文本的表示的语言输出瓶颈,以及适应小型动作条件数据集时的数据机制不匹配,它们并不适合作为独立的密集预测器。我们提出了一种VLM引导的JEPA风格的潜在世界建模框架,该框架通过双时间路径结合了密集帧动态建模和长时域语义指导:一个用于细粒度运动和交互线索的密集JEPA分支,以及一个具有更大时间步长的均匀采样的VLM“思考者”分支,用于提供知识丰富的指导。为了有效地传递VLM的渐进推理信号,我们引入了一个分层金字塔表示提取模块,该模块将多层VLM表示聚合为与潜在预测兼容的指导特征。在手部操作轨迹预测上的实验表明,我们的方法优于仅使用VLM的强基线和JEPA预测器基线,并产生了更鲁棒的长时域rollout行为。

🔬 方法详解

问题定义:现有潜在世界模型在处理长时域预测时,由于仅依赖短时间窗口的密集预测,缺乏对全局语义信息的理解,容易陷入局部最优,导致预测结果不准确。VLM虽然具有强大的语义理解能力,但其稀疏采样和语言输出瓶颈限制了其在密集预测任务中的应用。

核心思路:ThinkJEPA的核心思路是将密集帧动态建模与长时域语义指导相结合。通过JEPA分支捕捉细粒度的运动和交互信息,同时利用VLM分支提供全局的语义指导,从而克服了现有方法的局限性。

技术框架:ThinkJEPA采用双时间路径架构,包含一个密集JEPA分支和一个VLM“思考者”分支。JEPA分支处理密集帧,用于捕捉细粒度的运动信息。VLM分支处理均匀采样的帧,利用VLM的语义推理能力提供全局语义指导。为了有效融合两个分支的信息,引入了分层金字塔表示提取模块,将VLM的多层表示聚合为与潜在预测兼容的指导特征。

关键创新:ThinkJEPA的关键创新在于将VLM的语义推理能力引入到潜在世界模型中,通过双时间路径架构实现了密集帧动态建模和长时域语义指导的有效融合。分层金字塔表示提取模块的设计使得VLM的语义信息能够有效地传递到JEPA分支,从而提升了长时域预测的准确性和鲁棒性。

关键设计:VLM分支采用均匀采样策略,以获取更长的时域信息。分层金字塔表示提取模块将VLM的多层表示进行聚合,形成多尺度的语义特征。损失函数的设计旨在鼓励JEPA分支学习到与VLM分支一致的语义表示,从而实现两个分支的有效融合。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,ThinkJEPA在手部操作轨迹预测任务上显著优于VLM-only和JEPA-predictor基线。具体而言,ThinkJEPA在长时域预测的准确性和鲁棒性方面均有明显提升,证明了VLM指导的潜在世界建模框架的有效性。

🎯 应用场景

ThinkJEPA可应用于机器人操作、自动驾驶、视频游戏等领域。通过预测未来状态,机器人可以更好地规划动作,自动驾驶系统可以更准确地预测交通状况,视频游戏中的AI角色可以做出更智能的决策。该研究有助于提升智能系统的决策能力和鲁棒性。

📄 摘要(原文)

Recent progress in latent world models (e.g., V-JEPA2) has shown promising capability in forecasting future world states from video observations. Nevertheless, dense prediction from a short observation window limits temporal context and can bias predictors toward local, low-level extrapolation, making it difficult to capture long-horizon semantics and reducing downstream utility. Vision--language models (VLMs), in contrast, provide strong semantic grounding and general knowledge by reasoning over uniformly sampled frames, but they are not ideal as standalone dense predictors due to compute-driven sparse sampling, a language-output bottleneck that compresses fine-grained interaction states into text-oriented representations, and a data-regime mismatch when adapting to small action-conditioned datasets. We propose a VLM-guided JEPA-style latent world modeling framework that combines dense-frame dynamics modeling with long-horizon semantic guidance via a dual-temporal pathway: a dense JEPA branch for fine-grained motion and interaction cues, and a uniformly sampled VLM \emph{thinker} branch with a larger temporal stride for knowledge-rich guidance. To transfer the VLM's progressive reasoning signals effectively, we introduce a hierarchical pyramid representation extraction module that aggregates multi-layer VLM representations into guidance features compatible with latent prediction. Experiments on hand-manipulation trajectory prediction show that our method outperforms both a strong VLM-only baseline and a JEPA-predictor baseline, and yields more robust long-horizon rollout behavior.