Beyond Euclidean Proximity: Repairing Latent World Models with Horizon-Matched Trajectory Reachability Metrics
作者: Liangyu Li, Shengzhi Wang, Qingwen Liu
分类: cs.LG, cs.RO
发布日期: 2026-05-21
备注: 26 pages, 7 figures
💡 一句话要点
提出轨迹可达性度量(TRM)以修正潜在世界模型中的规划偏差
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 潜在世界模型 轨迹可达性 模型预测控制 强化学习 机器人规划
📋 核心要点
- 现有潜在世界模型在终端代价评估时,依赖潜在空间的欧氏距离,无法准确反映真实的可达性。
- 提出轨迹可达性度量(TRM),通过学习轨迹结构信息,优化终端状态的排序,提升规划性能。
- 实验表明,TRM在多个任务中显著提升了规划成功率,并提供了TRM有效性的机制性证据。
📝 摘要(中文)
潜在世界模型可以包含控制所需的必要状态,但其终端代价接口可能会向规划器暴露错误的决策相关信息。在常见的潜在MPC中,候选序列通过预测的终端状态和目标状态之间的欧几里得距离进行排序;这假设原始潜在距离能够正确地衡量与可达性相关的变量。我们提出了轨迹可达性度量(TRM),这是一种用于固定潜在世界模型的后验终端排序方法。TRM从记录的轨迹结构中训练一个小的成对头部,并将其用作替换或混合代价;编码器、动力学模型、采样器、优化器和评估方式保持不变。关键的设计选择是horizon-aware监督:该度量在广泛、平衡的时间间隔上进行训练,以匹配长horizon的终端候选排序问题。在困难的TwoRoom基准测试中,使用LeWorldModel(LeWM)的原始潜在规划的成功率为7.0%,而全horizon TRM的成功率达到97.0%;随机时间标签的对照组保持在0.0%。相同的方案将PLDM基线的性能从32.7%提高到84.0%(跨三个种子),而短horizon的TRM变体在使用100,000个pair的预算下仅达到35.0%。在TwoRoom中,我们提供了TRM工作原理的机制证据:XY位置可以线性解码(R^2=0.998),但原始潜在MSE错误地对候选者进行排序;XY探针行空间占终端-目标潜在MSE的不到1%,但携带了大多数候选质量信号;SCSA审计表明,TRM改善了规划器看到的排序和选定的终点。在PushT go50 / go75上,TRM风格的任务状态度量比闭环成功更清晰地改善了SCSA排序和选定的最终距离,从而激发了连续操作中的辅助混合代价。TRM是面向规划器的修复,审计解释了何时终端可达性度量应替换或增强原始潜在接近度。
🔬 方法详解
问题定义:论文旨在解决潜在世界模型中,由于潜在空间的欧氏距离无法准确反映真实世界的可达性,导致规划器做出错误决策的问题。现有方法直接使用潜在状态的距离作为代价函数,忽略了潜在空间与真实世界状态之间的复杂映射关系,使得规划结果不理想。
核心思路:论文的核心思路是学习一个轨迹可达性度量(TRM),该度量能够根据轨迹的历史信息,更准确地评估终端状态的可达性。TRM通过训练一个小的成对头部,学习轨迹结构信息,并将其作为代价函数的一部分,从而优化规划结果。这种方法的核心在于利用轨迹信息来弥补潜在空间与真实世界之间的差距。
技术框架:TRM方法主要包含以下几个阶段:1) 使用现有的潜在世界模型(如LeWorldModel或PLDM)生成轨迹数据;2) 从轨迹数据中提取成对的终端状态,并根据其时间间隔进行标记;3) 训练一个小的成对头部,以学习轨迹可达性度量;4) 将TRM作为代价函数的一部分,用于优化规划结果。整个框架保持了编码器、动力学模型、采样器和优化器的不变性,只对终端状态的排序方式进行了改进。
关键创新:TRM的关键创新在于:1) 提出了一种基于轨迹结构信息的终端状态排序方法,能够更准确地评估可达性;2) 采用horizon-aware监督,即在训练TRM时,考虑了不同时间间隔的轨迹信息,从而更好地匹配长horizon的规划问题;3) 提供了一种后验修复方法,无需修改现有的潜在世界模型,即可显著提升规划性能。
关键设计:TRM的关键设计包括:1) 成对头部的网络结构:论文中使用了小型神经网络作为成对头部,具体结构未知;2) 损失函数:使用成对排序损失函数,鼓励TRM将更可达的终端状态排在前面;3) horizon-aware监督:在训练数据中,平衡不同时间间隔的轨迹样本,以适应长horizon的规划问题;4) 混合代价函数:将TRM与原始潜在距离相结合,以充分利用潜在空间的信息。
🖼️ 关键图片
📊 实验亮点
在TwoRoom环境中,使用LeWorldModel的原始潜在规划成功率仅为7.0%,而使用全horizon TRM后,成功率提升至97.0%。在PLDM基线上,TRM也将其性能从32.7%提升至84.0%。实验还证明,XY位置可以从潜在状态中线性解码(R^2=0.998),但原始潜在MSE会错误地对候选者进行排序,表明TRM能够更准确地评估可达性。
🎯 应用场景
该研究成果可应用于机器人导航、游戏AI、自动驾驶等领域。通过提升潜在世界模型中规划器的决策能力,可以使机器人在复杂环境中更有效地完成任务。该方法尤其适用于那些潜在空间与真实世界状态之间存在复杂映射关系的任务。
📄 摘要(原文)
Latent world models can contain the state needed for control, yet their terminal-cost interface can expose the planner to the wrong decision-relevant information. In common latent MPC, candidate sequences are ranked by Euclidean distance between predicted terminal and goal latent states; this assumes that raw latent distance weights reachability-relevant variables correctly. We propose trajectory reachability metrics (TRM), a post-hoc terminal-ranking method for fixed latent world models. TRM trains a small pairwise head from logged trajectory structure and uses it as a replacement or hybrid cost; the encoder, dynamics, sampler, optimizer, and evaluation manifests remain fixed. The key design choice is horizon-aware supervision: the metric is trained on broad, balanced temporal separations to match the long-horizon terminal candidate ranking problem. On a hard TwoRoom benchmark, raw latent planning with LeWorldModel (LeWM) reaches 7.0% success, while full-horizon TRM reaches 97.0%; shuffled temporal-label controls stay at 0.0%. The same recipe improves a PLDM baseline from 32.7% to 84.0% across three seeds, and a short-horizon TRM variant reaches only 35.0% with the 100,000 pair budget. In TwoRoom, we provide mechanistic evidence for why TRM works: XY position is linearly decodable (R^2=0.998), yet raw latent MSE misranks candidates; the XY-probe rowspace accounts for less than 1% of terminal-goal latent MSE but carries most candidate-quality signal; and SCSA audits show that TRM improves the ordering and selected endpoint seen by the planner. On PushT go50/go75, TRM-style task-state metrics improve SCSA ranking and selected final distance more cleanly than closed-loop success, motivating auxiliary hybrid costs in continuous manipulation. TRM is the planner-facing repair, and audits explain when terminal reachability metrics should replace or augment raw latent proximity.