Learning Visual Feature-Based World Models via Residual Latent Action

作者: Xinyu Zhang, Zhengtong Xu, Yutian Tao, Yeping Wang, Yu She, Abdeslam Boularias

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2026-05-08

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出基于残差潜在动作（RLA）的世界模型，通过流匹配实现高效视觉特征预测与机器人策略学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 流匹配 视觉特征预测 机器人学习 离线强化学习 表征学习

📋 核心要点

现有基于视觉特征的世界模型多采用直接回归，在处理复杂动态交互时易出现预测模糊或模型坍塌问题。
提出残差潜在动作（RLA）表示，并结合流匹配技术构建RLA-WM，有效捕捉高维特征空间的时间演化规律。
在仿真与真实机器人任务中，RLA-WM在性能上超越了主流视频扩散模型，且推理速度实现了数量级的提升。

📝 摘要（中文）

世界模型通过观测和动作预测未来状态。现有研究多集中于图像生成，而基于视觉特征的世界模型虽能提高效率并减少幻觉，但直接回归方法在复杂交互中易导致预测模糊或坍塌，且高维特征空间中的生成建模仍具挑战。本文提出“残差潜在动作”（Residual Latent Action, RLA），这是一种可从DINO残差中学习的潜在动作表示，具有预测性、泛化性及时间演化编码能力。基于此，作者提出了RLA-WM，利用流匹配（Flow Matching）预测RLA值。实验表明，RLA-WM在仿真与真实世界数据集上均优于现有的特征基模型及视频扩散模型，且推理速度提升数个数量级。此外，本文还开发了两种机器人学习技术，实现了仅利用离线视频进行策略训练的视觉强化学习框架。

🔬 方法详解

问题定义：论文旨在解决基于视觉特征的世界模型在复杂环境预测中的不稳定性问题。现有方法依赖直接回归，难以处理高维特征空间中的多模态分布，导致预测结果模糊或发生坍塌。

核心思路：引入“残差潜在动作”（RLA）作为中间表征，将复杂的视觉动态转化为残差空间中的动作预测问题。利用流匹配（Flow Matching）这一强大的生成建模范式，在RLA空间内进行概率密度建模，从而实现对未来视觉特征的精确预测。

技术框架：RLA-WM架构包含三个阶段：首先，利用预训练的DINO模型提取视觉特征并计算残差；其次，通过学习将这些残差映射为RLA表示；最后，使用流匹配模型对RLA序列进行建模，实现从当前状态到未来状态的条件生成。

关键创新：RLA的提出是核心创新，它不仅解耦了视觉特征的演化，还通过DINO残差捕捉了动作对环境的影响。相比于直接预测像素或特征，RLA提供了一种更紧凑、更具语义信息的动态表示。

关键设计：模型采用了流匹配损失函数进行训练，确保了生成过程的平滑性与稳定性。此外，设计了基于RLA的动作模型，支持从无动作标签的演示视频中学习，并构建了无需在线交互的纯离线视觉强化学习闭环。

🖼️ 关键图片

📊 实验亮点

RLA-WM在多个仿真与真实世界数据集上表现优异，预测精度显著高于现有的特征回归模型。在推理效率方面，相比于计算密集型的视频扩散模型，RLA-WM实现了数个数量级的速度提升。此外，该方法成功实现了首个完全基于离线视频训练的视觉强化学习框架，验证了其在无奖励标注环境下的强大泛化能力。

🎯 应用场景

该研究主要应用于机器人学习与自主智能体领域。通过RLA-WM，机器人能够仅利用离线视频数据学习环境动力学，无需昂贵的在线交互或人工设计奖励函数，极大地降低了机器人策略学习的门槛，适用于复杂操作任务及长时序规划场景。

📄 摘要（原文）

World models predict future transitions from observations and actions. Existing works predominantly focus on image generation only. Visual feature-based world models, on the other hand, predict future visual features instead of raw video pixels, offering a promising alternative that is more efficient and less prone to hallucination. However, current feature-based approaches rely on direct regression, which leads to blurry or collapsed predictions in complex interactions, while generative modeling in high-dimensional feature spaces still remains challenging. In this work, we discover that a new type of latent action representation, which we refer to as Residual Latent Action (RLA), can be easily learned from DINO residuals. We also show that RLA is predictive, generalizable, and encodes temporal progression. Building on RLA, we propose RLA World Model (RLA-WM), which predicts RLA values via flow matching. RLA-WM outperforms both state-of-the-art feature-based and video-diffusion world models on simulation and real-world datasets, while being orders of magnitude faster than video diffusion. Furthermore, we develop two robot learning techniques that use RLA-WM to improve policy learning. The first one is a minimalist world action model with RLA that learns from actionless demonstration videos. The second one is the first visual RL framework trained entirely inside a world model learned from offline videos only, using a video-aligned reward and no online interactions or handcrafted rewards. Project page: https://mlzxy.github.io/rla-wm

Learning Visual Feature-Based World Models via Residual Latent Action

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理