Subspace-Decomposed JEPAs: Disentangling Progression and Content in Latent World Models

📄 arXiv: 2605.31111v1 📥 PDF

作者: Lucas Thil, Jesse Read, Rim Kaddah, Guillaume Doquet

分类: cs.LG

发布日期: 2026-05-29


💡 一句话要点

提出SD-JEPA以解决任务进展与内容编码分离问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 潜在空间 任务进展 内容编码 联合嵌入 预测架构 机器人导航 智能决策 动态环境

📋 核心要点

  1. 现有的JEPA方法未能有效地将任务进展与内容编码分离,导致潜在空间的利用不充分。
  2. 本文提出了一种新的SD-JEPA方法,通过将潜在空间划分为进展和内容两个子空间,分别使用余弦边距三元组损失和SIGReg目标进行正则化。
  3. 实验结果显示,SD-JEPA在多个基准测试中表现优于LeWM,并在Push-T任务中取得显著提升,进展子空间解释了72-95%的任务进展方差。

📝 摘要(中文)

联合嵌入预测架构(JEPA)通过预测未来嵌入来学习紧凑的潜在世界模型,但未能明确任务进展的编码。本文将JEPA的潜在空间划分为两个正交子空间:一个低维的进展子空间和一个高维的内容子空间。我们证明这两个反坍缩力作用于不同坐标,使其相加而非竞争。SD-JEPA在大多数控制基准上优于LeWM基线,并在Push-T任务中超越了最强的非LeWM JEPA基线。通过定量测试,结果表明进展坐标在语义事件定位上表现优异。

🔬 方法详解

问题定义:本文旨在解决JEPA方法中潜在空间未能有效编码任务进展的问题,现有方法未能明确区分进展与内容的编码,导致性能受限。

核心思路:通过将JEPA的潜在空间划分为低维的进展子空间和高维的内容子空间,分别使用不同的损失函数进行优化,从而实现任务进展与内容的有效分离。

技术框架:整体架构包括两个主要模块:进展子空间模块和内容子空间模块。进展子空间通过余弦边距三元组损失进行优化,而内容子空间则使用SIGReg目标进行正则化。

关键创新:最重要的创新在于将潜在空间划分为两个正交子空间,使得进展与内容的编码相互独立,避免了在同一维度上的竞争,从而提高了模型的表达能力。

关键设计:在损失函数设计上,采用了余弦边距三元组损失来优化进展子空间,同时保持内容子空间的正则化,确保两个子空间的有效性和互补性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SD-JEPA在大多数控制基准上优于LeWM,尤其在Push-T任务中表现突出,进展坐标在语义事件定位上相较于标准潜在预测误差提升了+0.18的AUROC,显示出其在任务进展识别中的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人导航、智能决策系统和动态环境中的任务规划。通过有效分离任务进展与内容编码,SD-JEPA能够提升智能体在复杂环境中的适应能力和决策效率,具有重要的实际价值和未来影响。

📄 摘要(原文)

Joint-Embedding Predictive Architectures (JEPAs) learn compact latent world models by predicting future embeddings, but no single coordinate of the latent is designated to encode task progression. We carve the JEPA latent into two orthogonal subspaces with disjoint roles: a low-dimensional progression subspace shaped by a cosine-margin triplet loss, and a high-dimensional content subspace regularised by the existing SIGReg objective of LeWM. We prove that the two anti-collapse forces act on disjoint coordinates, so they compose additively rather than competing on the same dimensions. Our method, SD-JEPA improves over the LeWM baseline on the majority of its control benchmarks at matched compute, and outperforms the strongest non-LeWM JEPA baseline on Push-T; a subspace-ablation falsifier confirms the split is the load-bearing ingredient. Beyond planning, the resulting 1-D angular progression coordinate functions as a scene-aware compass on the latent. It advances with task progress, regresses when the agent backtracks, and under controlled perturbations both spikes and relocalises to a semantically appropriate new task-phase sector, separating the moment of surprise from its meaning in a way that prediction-error scalars cannot. Three quantitative tests back this up: $|Δθ_t|$ outperforms the standard latent-prediction-error surprise at localising semantic events on 40 held-out cube episodes by up to +0.18 pooled AUROC (97.5% per-episode win rate at $\pm 1$-step tolerance); a within-episode linear probe across all four environments (40 episodes per env) shows the 8-dimensional progression subspace (4.2% of the latent) explains 72-95% of task-progress variance..