Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning

📄 arXiv: 2603.25685v1 📥 PDF

作者: Jai Bardhan, Patrik Drozdik, Josef Sivic, Vladimir Petrik

分类: cs.RO, cs.CV

发布日期: 2026-03-26

备注: 34 pages, 11 figures, 12 tables


💡 一句话要点

提出基于强化学习的持久机器人世界模型,稳定多步预测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人世界模型 强化学习 自回归预测 视觉保真度 多视角学习

📋 核心要点

  1. 传统机器人世界模型在长时预测中误差累积严重,导致自回归展开的视觉质量迅速下降。
  2. 利用强化学习对世界模型进行后训练,使其能够基于自身生成的轨迹进行优化,提升长期预测的稳定性。
  3. 通过多视角视觉保真度奖励和多候选未来比较,提供更密集和准确的训练信号,显著提升预测质量。

📝 摘要(中文)

本文提出了一种基于强化学习的机器人世界模型,旨在解决传统世界模型在自回归展开中误差累积、视觉质量快速下降的问题。该方法通过强化学习对世界模型进行后训练,使其能够基于自身的自回归展开进行学习,而非依赖真实历史数据。具体而言,本文将一种用于扩散模型的对比强化学习目标应用于该场景,并证明其收敛性保证依然成立。此外,本文设计了一种训练协议,从同一展开状态生成并比较多个候选变长未来,从而强化更高保真度的预测。最后,本文开发了高效的多视角视觉保真度奖励,结合了跨摄像机视角的互补感知指标,并在片段级别进行聚合,以获得密集的、低方差的训练信号。实验结果表明,该方法在DROID数据集上实现了最先进的展开保真度,在所有指标上均优于最强的基线模型。

🔬 方法详解

问题定义:现有的基于动作条件的机器人世界模型通常针对短期预测进行优化,但在自回归展开时,由于预测误差的累积,会导致视觉质量迅速下降,无法进行长期稳定的预测。这限制了世界模型在复杂机器人任务中的应用。

核心思路:本文的核心思路是利用强化学习(RL)对世界模型进行后训练,使其能够从自身生成的自回归展开中学习,从而提高其长期预测的稳定性。通过奖励高保真度的预测,惩罚低保真度的预测,使模型学会生成更逼真、更一致的未来场景。

技术框架:该方法包含以下几个主要模块:1) 动作条件世界模型:用于生成未来视频帧,以机器人动作为条件。2) 强化学习模块:使用对比强化学习目标,根据世界模型生成的轨迹进行训练。3) 多视角视觉保真度奖励模块:计算不同视角下预测视频帧的视觉质量,作为强化学习的奖励信号。4) 多候选未来生成与比较模块:从同一状态生成多个可能的未来,并比较它们的质量,选择最佳的未来进行强化。

关键创新:该方法最重要的创新点在于将强化学习引入到世界模型的训练中,使其能够从自身生成的轨迹中学习,从而解决了传统世界模型在自回归展开中误差累积的问题。此外,多视角视觉保真度奖励和多候选未来比较也为强化学习提供了更有效的训练信号。

关键设计:该方法使用对比强化学习目标,鼓励模型生成与真实场景更相似的未来。多视角视觉保真度奖励结合了LPIPS和SSIM等感知指标,以更全面地评估预测视频帧的质量。多候选未来生成与比较通过选择最佳的未来进行强化,提高了训练的效率和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在DROID数据集上实现了最先进的展开保真度,在所有指标上均优于最强的基线模型。例如,在外部摄像机视角下,LPIPS降低了14%,在腕部摄像机视角下,SSIM提高了9.1%。在配对比较中,该方法赢得了98%的胜利,并在盲人研究中获得了80%的偏好率。

🎯 应用场景

该研究成果可应用于机器人自主导航、操作和规划等领域。通过构建更稳定、更可靠的机器人世界模型,可以帮助机器人在复杂环境中更好地理解和预测未来,从而做出更明智的决策。此外,该技术还可以应用于虚拟现实、游戏开发等领域,生成更逼真、更具交互性的虚拟环境。

📄 摘要(原文)

Action-conditioned robot world models generate future video frames of the manipulated scene given a robot action sequence, offering a promising alternative for simulating tasks that are difficult to model with traditional physics engines. However, these models are optimized for short-term prediction and break down when deployed autoregressively: each predicted clip feeds back as context for the next, causing errors to compound and visual quality to rapidly degrade. We address this through the following contributions. First, we introduce a reinforcement learning (RL) post-training scheme that trains the world model on its own autoregressive rollouts rather than on ground-truth histories. We achieve this by adapting a recent contrastive RL objective for diffusion models to our setting and show that its convergence guarantees carry over exactly. Second, we design a training protocol that generates and compares multiple candidate variable-length futures from the same rollout state, reinforcing higher-fidelity predictions over lower-fidelity ones. Third, we develop efficient, multi-view visual fidelity rewards that combine complementary perceptual metrics across camera views and are aggregated at the clip level for dense, low-variance training signal. Fourth, we show that our approach establishes a new state-of-the-art for rollout fidelity on the DROID dataset, outperforming the strongest baseline on all metrics (e.g., LPIPS reduced by 14% on external cameras, SSIM improved by 9.1% on the wrist camera), winning 98% of paired comparisons, and achieving an 80% preference rate in a blind human study.