Predictive but Not Plannable: RC-aux for Latent World Models

📄 arXiv: 2605.07278v1 📥 PDF

作者: Wenyuan Li, Guang Li, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama

分类: cs.LG, cs.AI, cs.CV

发布日期: 2026-05-08

🔗 代码/项目: GITHUB


💡 一句话要点

提出可达性校正辅助目标(RC-aux),解决潜在世界模型中预测与规划不匹配的问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 潜在世界模型 具身智能 长程规划 表征学习 可达性分析 强化学习

📋 核心要点

  1. 现有世界模型虽具备高预测精度,但其潜在空间缺乏对长程规划所需的时空结构感知,导致预测与规划目标不匹配。
  2. 提出RC-aux辅助目标,通过多步开环预测与预算条件下的可达性监督,强制潜在空间学习可达性与时间演化规律。
  3. 在LeWorldModel上验证了该方法,在目标导向的像素控制任务中显著提升了规划成功率,且计算开销极小。

📝 摘要(中文)

潜在世界模型在短程预测上表现优异,但其潜在空间往往难以直接用于规划。核心矛盾在于时空错配:模型通常基于局部预测监督进行训练,而长程目标导向的规划要求潜在空间能够反映有限动作预算下的可达性,而非简单的欧几里得距离。本文提出了可达性校正辅助目标(RC-aux),这是一种针对无重构潜在世界模型的轻量级修正方案。RC-aux 在保持主干网络不变的前提下,通过时间轴上的多步开环预测和空间轴上的预算条件可达性监督,强化了潜在空间的结构化表达。实验表明,RC-aux 在目标条件像素控制任务及 LIBERO-Goal 扩展任务中显著提升了规划性能,证明了表征学习对下游搜索任务的重要性。

🔬 方法详解

问题定义:现有潜在世界模型主要通过局部预测(如单步预测)训练,导致潜在空间在长程规划时,欧几里得距离无法准确反映动作预算内的可达性,即“预测准确但不可规划”。

核心思路:引入可达性校正(RC-aux),通过在潜在空间中显式引入“可达性”约束,使模型能够区分哪些状态是当前规划预算内可达的,从而对齐预测空间与规划需求。

技术框架:该方法作为轻量级插件,不改变原有的世界模型主干。它在训练过程中引入两个维度的监督:一是时间轴上的多步开环预测,增强模型对长程演化的建模;二是空间轴上的预算条件可达性监督,结合时间硬负样本,明确状态的可达性边界。

关键创新:创新性地将“可达性”作为一种辅助监督信号引入潜在空间学习,并提出了一种可达性感知规划器,在推理时利用该信号筛选出既符合目标又在预算范围内的可行轨迹。

关键设计:核心在于预算条件下的二分类监督,通过对比学习的思想,将当前规划视界内的状态与超出视界的状态进行区分,并结合多步预测损失,共同优化潜在表征的几何结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在LeWorldModel架构上进行了验证,涵盖了多种目标条件像素控制任务及LIBERO-Goal基准。结果显示,RC-aux在保持极低额外计算成本的同时,显著提升了规划成功率。对比基线模型,RC-aux在长程任务中表现出更强的鲁棒性,证明了其在解决潜在空间时空错配问题上的有效性。

🎯 应用场景

该研究适用于机器人操作、自动驾驶及复杂环境下的长程决策任务。通过优化潜在空间的可达性表征,能够显著提升智能体在复杂动态环境中的目标导向规划能力,减少无效探索,在需要高精度动作规划的工业自动化与具身智能领域具有重要应用价值。

📄 摘要(原文)

A latent world model may achieve accurate short-horizon prediction while still inducing a latent space that is poorly aligned with planning. A key issue is spatiotemporal mismatch: these models are often trained with local predictive supervision, but deployed for long-horizon goal-directed search in latent spaces where Euclidean distance may not reflect what is reachable within a finite action budget. We present the Reachability-Correction auxiliary objective (RC-aux), a lightweight correction for this mismatch in reconstruction-free latent world models. RC-aux keeps the world-model backbone unchanged and adds planning-aligned supervision along two axes. Along the time axis, multi-horizon open-loop prediction trains the model beyond one-step consistency. Along the space axis, budget-conditioned reachability supervision, together with temporal hard negatives, encourages the latent space to distinguish states that are eventually reachable from those reachable within the current planning horizon. At test time, the learned reachability signal can also be used by a reachability-aware planner to favor trajectories that are both goal-directed and attainable under the available budget. We instantiate RC-aux on LeWorldModel and evaluate it under both continuation-training and matched-from-scratch settings. Across goal-conditioned pixel-control tasks and a LIBERO-Goal extension, RC-aux improves LeWM-style planning with modest additional cost. These results suggest that planning with latent world models depends not only on predictive accuracy, but also on whether the learned representation encodes the temporal and geometric structure required by downstream search. The code is available at https://github.com/Guang000/RC-aux.