EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields
作者: Zhaoyang Yang, Yurun Jin, Lizhe Qi, Cong Huang, Kai Chen
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-05-07
备注: Preprint. 22 pages, 10 figures
💡 一句话要点
提出EA-WM,利用事件感知生成世界模型,解决机器人操作中精确控制与视觉感知对齐问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 世界模型 视频生成 机器人操作 运动学-视觉动作场 事件感知 扩散模型 双向融合 机器人学习
📋 核心要点
- 现有世界模型通常将视频生成视为策略学习的辅助,忽略了利用动作信号指导视频合成,导致生成视频中机器人空间几何和精细交互动力学保真度不足。
- EA-WM通过将动作和运动学状态投影为结构化的运动学-视觉动作场,并利用事件感知的双向融合块,显式地建模了运动控制与视觉感知之间的关系。
- 在WorldArena基准测试中,EA-WM显著超越现有基线,证明了其在机器人世界建模和精确控制方面的有效性。
📝 摘要(中文)
本文提出了一种事件感知的生成世界模型EA-WM,旨在有效连接运动控制和视觉感知之间的循环。与将关节或末端执行器动作作为抽象低维token注入不同,EA-WM将动作和运动学状态直接投影到目标相机视图中,形成结构化的运动学-视觉动作场。为了充分利用这种几何基础的表示,我们引入了事件感知的双向融合块,以调节跨分支注意力,从而捕获对象状态变化和交互动态。在全面的WorldArena基准测试中,EA-WM取得了最先进的性能,显著优于现有基线。
🔬 方法详解
问题定义:现有基于视频扩散模型的机器人世界模型,在利用动作信息指导视频生成方面存在不足,导致生成的视频无法精确地反映机器人的空间几何结构以及机器人与物体之间细粒度的交互动力学。这些模型通常将动作视为低维抽象token,忽略了动作与视觉信息之间的几何关系。
核心思路:EA-WM的核心思路是将动作和运动学状态直接投影到目标相机视图中,形成结构化的运动学-视觉动作场。通过这种方式,动作信息不再是抽象的token,而是与视觉信息在空间上对齐的几何表示,从而能够更好地指导视频生成,并保留机器人操作的精确几何结构和交互动力学。
技术框架:EA-WM的整体框架包含以下几个主要模块:1) 运动学-视觉动作场生成模块,将动作和运动学状态投影到相机视图中;2) 事件感知双向融合块,用于融合视觉信息和动作场信息,捕捉对象状态变化和交互动态;3) 视频扩散模型,用于生成未来的视频帧。整个流程是,首先根据当前状态和动作生成运动学-视觉动作场,然后将其与视觉信息一起输入到事件感知双向融合块中,最后由视频扩散模型生成下一帧的视频。
关键创新:EA-WM的关键创新在于:1) 提出了结构化的运动学-视觉动作场,将动作信息以几何方式嵌入到视觉空间中;2) 引入了事件感知的双向融合块,能够有效地融合视觉信息和动作场信息,捕捉对象状态变化和交互动态。与现有方法相比,EA-WM能够更好地利用动作信息指导视频生成,从而生成更精确、更真实的机器人操作视频。
关键设计:事件感知双向融合块的设计是关键。该模块通过跨分支注意力机制,允许视觉信息和动作场信息相互影响,从而捕捉对象状态变化和交互动态。具体来说,该模块包含两个注意力分支,一个用于从视觉信息中提取特征,另一个用于从动作场信息中提取特征。然后,这两个分支的输出通过一个交叉注意力机制进行融合,从而实现信息的双向传递。
🖼️ 关键图片
📊 实验亮点
EA-WM在WorldArena基准测试中取得了state-of-the-art的性能,显著优于现有基线。具体性能数据在论文中给出,表明EA-WM在机器人世界建模和精确控制方面具有显著优势。
🎯 应用场景
EA-WM在机器人操作、自动化控制、虚拟现实等领域具有广泛的应用前景。它可以用于训练更智能的机器人策略,提高机器人在复杂环境中的操作能力。此外,EA-WM还可以用于生成逼真的机器人操作视频,用于虚拟现实训练和仿真。
📄 摘要(原文)
Pretrained video diffusion models provide powerful spatiotemporal generative priors, making them a natural foundation for robotic world models. While recent world-action models jointly optimize future videos and actions, they predominantly treat video generation as an auxiliary representation for policy learning. Consequently, they insufficiently explore the inverse problem: leveraging action signals to guide video synthesis, thereby often failing to preserve precise robot spatial geometry and fine-grained robot-object interaction dynamics in the generated rollouts. To bridge this gap, we present EA-WM, an Event-Aware Generative World Model that effectively closes the loop between kinematic control and visual perception. Rather than injecting joint or end-effector actions as abstract, low-dimensional tokens, EA-WM projects actions and kinematic states directly into the target camera view as Structured Kinematic-to-Visual Action Fields. To fully exploit this geometrically grounded representation, we introduce event-aware bidirectional fusion blocks that modulate cross-branch attention, capturing object state changes and interaction dynamics. Evaluated on the comprehensive WorldArena benchmark, EA-WM achieves state-of-the-art performance, outperforming existing baselines by a significant margin.