Action Images: End-to-End Policy Learning via Multiview Video Generation

📄 arXiv: 2604.06168v1 📥 PDF

作者: Haoyu Zhen, Zixian Gao, Qiao Sun, Yilin Zhao, Yuncong Yang, Yilun Du, Tsun-Hsuan Wang, Yi-Ling Qiao, Chuang Gan

分类: cs.CV, cs.RO

发布日期: 2026-04-07

备注: Project Page: https://actionimages.github.io/


💡 一句话要点

Action Images:通过多视角视频生成实现端到端机器人策略学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人策略学习 世界行为模型 多视角视频生成 动作图像 零样本学习

📋 核心要点

  1. 现有世界行为模型依赖分离的动作模块或非像素化的动作表示,难以充分利用预训练视频模型的知识,限制了跨视角和环境的迁移。
  2. Action Images将策略学习转化为多视角视频生成,通过像素化的动作图像显式跟踪机器人手臂运动,使视频骨干网络直接作为零样本策略。
  3. 实验表明,Action Images在零样本成功率和视频-动作联合生成质量上优于现有视频空间世界模型,验证了其有效性。

📝 摘要(中文)

世界行为模型(WAMs)已成为机器人策略学习的一个有前景的方向,因为它们可以利用强大的视频骨干网络来建模未来状态。然而,现有的方法通常依赖于单独的动作模块,或者使用非像素化的动作表示,这使得难以充分利用视频模型的预训练知识,并限制了跨视角和环境的迁移。本文提出了Action Images,一个统一的世界行为模型,它将策略学习形式化为多视角视频生成。我们没有将控制编码为低维tokens,而是将7-DoF机器人动作转换为可解释的动作图像:基于2D像素并显式跟踪机器人手臂运动的多视角动作视频。这种像素化的动作表示允许视频骨干网络本身充当零样本策略,而无需单独的策略头或动作模块。除了控制之外,同一个统一模型还支持视频-动作联合生成、动作条件视频生成和共享表示下的动作标记。在RLBench和真实世界评估中,我们的模型实现了最强的零样本成功率,并提高了视频-动作联合生成质量,优于先前的视频空间世界模型,表明可解释的动作图像是策略学习的一个有希望的途径。

🔬 方法详解

问题定义:现有机器人策略学习方法,特别是基于世界行为模型的方法,通常依赖于独立的动作模块或非像素化的动作表示。这导致两个主要问题:一是难以充分利用预训练视频模型的强大能力,二是限制了策略在不同视角和环境之间的泛化能力。因此,需要一种能够有效利用视频模型知识,并具备良好泛化能力的策略学习方法。

核心思路:Action Images的核心思路是将机器人动作转化为可解释的、像素化的动作图像,即多视角动作视频。通过这种方式,机器人动作不再是抽象的低维向量,而是与视觉信息紧密结合,可以直接被视频模型理解和处理。这种像素化的动作表示使得视频骨干网络可以直接作为策略,无需额外的策略头或动作模块。

技术框架:Action Images的整体框架包括以下几个关键部分:1) 动作图像生成器:将7-DoF机器人动作转换为多视角动作视频。2) 视频骨干网络:利用预训练的视频模型(如Transformer)来建模未来状态。3) 损失函数:用于训练模型,包括视频生成损失、动作预测损失等。整个流程可以概括为:给定当前状态和动作图像,视频骨干网络预测未来状态,并通过损失函数进行优化。

关键创新:Action Images最重要的技术创新在于提出了像素化的动作表示,即动作图像。这种表示方式将机器人动作与视觉信息紧密结合,使得视频模型可以直接理解和利用动作信息。与传统的低维动作表示相比,动作图像更具可解释性,并且能够更好地利用预训练视频模型的知识。此外,Action Images还提出了一个统一的模型,可以支持视频-动作联合生成、动作条件视频生成和动作标记等多种任务。

关键设计:动作图像生成器将7-DoF机器人动作转换为多个视角的RGB图像序列,每个图像序列表示机器人手臂在不同视角下的运动轨迹。视频骨干网络采用Transformer架构,用于建模视频序列的时空关系。损失函数包括视频生成损失(如L1损失、感知损失)和动作预测损失(如交叉熵损失)。模型训练采用端到端的方式,通过优化损失函数来提高模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Action Images在RLBench和真实世界机器人任务上取得了显著的成果。在零样本策略学习方面,Action Images实现了最强的成功率,超过了现有的视频空间世界模型。此外,Action Images在视频-动作联合生成任务上也表现出色,生成了更高质量的视频序列。这些实验结果表明,Action Images是一种有效的策略学习方法,具有良好的泛化能力和可扩展性。

🎯 应用场景

Action Images具有广泛的应用前景,包括机器人操作、自动驾驶、虚拟现实等领域。它可以用于训练更智能、更灵活的机器人,使其能够更好地适应不同的环境和任务。此外,Action Images还可以用于生成逼真的虚拟环境,为用户提供更沉浸式的体验。未来,Action Images有望成为机器人和人工智能领域的重要技术。

📄 摘要(原文)

World action models (WAMs) have emerged as a promising direction for robot policy learning, as they can leverage powerful video backbones to model the future states. However, existing approaches often rely on separate action modules, or use action representations that are not pixel-grounded, making it difficult to fully exploit the pretrained knowledge of video models and limiting transfer across viewpoints and environments. In this work, we present Action Images, a unified world action model that formulates policy learning as multiview video generation. Instead of encoding control as low-dimensional tokens, we translate 7-DoF robot actions into interpretable action images: multi-view action videos that are grounded in 2D pixels and explicitly track robot-arm motion. This pixel-grounded action representation allows the video backbone itself to act as a zero-shot policy, without a separate policy head or action module. Beyond control, the same unified model supports video-action joint generation, action-conditioned video generation, and action labeling under a shared representation. On RLBench and real-world evaluations, our model achieves the strongest zero-shot success rates and improves video-action joint generation quality over prior video-space world models, suggesting that interpretable action images are a promising route to policy learning.