EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards

📄 arXiv: 2603.17808v1 📥 PDF

作者: Ruixiang Wang, Qingming Liu, Yueci Deng, Guiliang Liu, Zhen Liu, Kui Jia

分类: cs.RO, cs.AI

发布日期: 2026-03-18

备注: Project page: https://eva-project-page.github.io/


💡 一句话要点

EVA:通过逆动力学奖励对齐视频世界模型与可执行机器人动作,解决执行鸿沟问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频世界模型 逆动力学 强化学习 机器人控制 可执行性 物理约束 机器人学习

📋 核心要点

  1. 现有视频世界模型缺乏可执行性约束,导致生成的视觉内容与机器人物理约束不符,产生“执行鸿沟”。
  2. EVA利用逆动力学模型作为奖励函数,通过强化学习对视频世界模型进行后训练,鼓励生成符合物理规律的视频序列。
  3. 实验表明,EVA能有效减少生成视频中的伪影,提高机器人任务的执行成功率,并在RoboTwin基准测试和真实机器人上验证。

📝 摘要(中文)

视频生成模型越来越多地被用作机器人的世界模型,该模型根据当前观察和任务指令生成未来的视觉展开。逆动力学模型(IDM)将生成的帧转换为可执行的机器人动作。然而,当前的视频世界模型缺乏显式的可执行性约束。因此,视觉上连贯的展开可能仍然违反刚体和运动学一致性,当被IDM解码时,产生不稳定或不可行的控制命令。我们将视觉生成和物理可执行控制之间的这种不匹配称为执行鸿沟。虽然这种差距可以在推理时使用诸如拒绝采样等技术来缓解,但由于视频生成的高成本,这些方法效率低下。在本文中,我们利用执行鸿沟作为训练信号,并引入可执行视频对齐(EVA),这是一个强化学习后训练框架,用于对齐视频世界模型。EVA在真实机器人轨迹上训练逆动力学模型,并将其重新用作奖励模型,通过其诱导的动作序列来评估生成的视频,鼓励通过速度、加速度和加加速度测量的平滑运动,同时惩罚违反身体约束的动作。重要的是,即使生成的视频包含严重的视觉伪影,奖励仍然具有信息性,因为这些伪影通常会转化为不稳定或超出范围的动作。在RoboTwin基准测试和真实的双臂机器人上的实验表明,EVA减少了生成展开中特定于身体的伪影,并提高了下游任务执行的成功率。

🔬 方法详解

问题定义:现有基于视频生成模型的机器人世界模型,其生成的视频序列缺乏与机器人物理约束的一致性,即“执行鸿沟”。即使视觉上合理的视频,也可能包含机器人无法执行的动作,导致控制指令不稳定或超出范围。现有缓解方法(如拒绝采样)效率低下,因为视频生成本身计算成本高昂。

核心思路:将“执行鸿沟”转化为训练信号,利用逆动力学模型(IDM)评估生成视频的可执行性。IDM在真实机器人轨迹上训练,学习从视频帧到动作的映射,并作为奖励模型,鼓励生成平滑且符合机器人物理约束的视频序列。即使视频存在视觉伪影,IDM仍然能通过动作序列的稳定性来判断其可执行性。

技术框架:EVA是一个强化学习后训练框架。首先,训练一个视频生成模型作为世界模型。然后,在真实机器人数据上训练一个逆动力学模型(IDM)。接下来,使用IDM作为奖励模型,对视频生成模型生成的视频序列进行评估,奖励平滑的动作(基于速度、加速度、加加速度),惩罚违反身体约束的动作。最后,使用强化学习算法(如PPO)更新视频生成模型,使其生成更符合机器人物理约束的视频。

关键创新:核心创新在于将逆动力学模型用作奖励函数,从而将物理约束显式地引入到视频生成模型的训练过程中。与传统的视觉一致性奖励不同,IDM奖励关注生成视频的可执行性,即使存在视觉伪影,也能提供有效的训练信号。这种方法避免了直接在视频生成过程中进行复杂的物理建模,而是通过学习的方式间接实现物理约束。

关键设计:IDM的网络结构和训练方式是关键。论文在真实机器人轨迹上训练IDM,使其能够准确预测给定视频帧序列对应的机器人动作。奖励函数的设计也至关重要,它需要平衡平滑性(速度、加速度、加加速度)和身体约束(例如,关节角度限制)。强化学习算法的选择和超参数调整也会影响最终的训练效果。具体参数设置和网络结构细节在论文中有更详细的描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EVA能够显著减少生成视频中的伪影,并提高下游任务的执行成功率。在RoboTwin基准测试中,EVA在多个任务上都取得了显著的性能提升。在真实的双臂机器人实验中,EVA也成功地提高了机器人完成复杂操作任务的成功率,验证了该方法的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于各种机器人任务,尤其是在复杂操作和动态环境中。通过提高视频世界模型的可执行性,可以显著提升机器人在未知环境中的自主导航、物体操作和任务规划能力。该方法有望降低机器人开发的成本和难度,加速机器人技术在工业、医疗和家庭服务等领域的普及。

📄 摘要(原文)

Video generative models are increasingly used as world models for robotics, where a model generates a future visual rollout conditioned on the current observation and task instruction, and an inverse dynamics model (IDM) converts the generated frames into executable robot actions. However, current video world models lack explicit executability constraints. As a result, visually coherent rollouts may still violate rigid-body and kinematic consistency, producing unstable or infeasible control commands when decoded by an IDM. We refer to this mismatch between visual generation and physically executable control as the executability gap. While this gap can be mitigated at inference time using techniques such as rejection sampling, such approaches are inefficient due to the high cost of video generation. In this paper, we leverage the executability gap as a training signal and introduce Executable Video Alignment (EVA), a reinforcement-learning post-training framework for aligning video world models. EVA trains an inverse dynamics model on real robot trajectories and repurposes it as a reward model that evaluates generated videos through the action sequences they induce, encouraging smooth motions measured by velocity, acceleration, and jerk while penalizing actions that violate embodiment constraints. Importantly, the reward remains informative even when generated videos contain severe visual artifacts, since such artifacts typically translate into unstable or out-of-bound actions. Experiments on the RoboTwin benchmark and a real bimanual robot show that EVA reduces embodiment-specific artifacts in generated rollouts and improves downstream task execution success.