RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation

📄 arXiv: 2604.19092v1 📥 PDF

作者: Feng Jiang, Yang Chen, Kyle Xu, Yuchen Liu, Haifeng Wang, Zhenhao Shen, Jasper Lu, Shengze Huang, Yuanfei Wang, Chen Xie, Ruihai Wu

分类: cs.RO, cs.AI

发布日期: 2026-04-21


💡 一句话要点

RoboWM-Bench:用于评估机器人操作中世界模型的基准测试

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 机器人操作 基准测试 具身智能 物理合理性

📋 核心要点

  1. 现有世界模型评估缺乏对物理合理性的系统评估,导致预测行为难以转化为机器人可执行的动作。
  2. RoboWM-Bench通过将生成视频中的行为转化为机器人动作序列,并进行实际机器人执行验证,弥补了这一差距。
  3. 实验表明,现有世界模型在生成物理上可执行的行为方面仍面临挑战,尤其是在空间推理和接触预测方面。

📝 摘要(中文)

大规模视频世界模型的最新进展使得未来预测越来越逼真,从而提高了利用想象视频进行机器人学习的前景。然而,视觉真实感并不意味着物理合理性,从生成的视频中推断出的行为可能违反动力学,并且在具身智能体执行时会失败。现有的基准测试开始纳入物理合理性的概念,但它们主要仍然是面向感知或诊断的,并且没有系统地评估预测的行为是否可以转化为可执行的动作来完成预期的任务。为了解决这个差距,我们引入了RoboWM-Bench,这是一个以操作为中心的基准测试,用于对视频世界模型进行具身基础评估。RoboWM-Bench将来自人手和机器人操作视频的生成行为转换为具身动作序列,并通过机器人执行来验证它们。该基准测试涵盖了各种操作场景,并建立了统一的协议,以实现一致且可重复的评估。使用RoboWM-Bench,我们评估了最先进的视频世界模型,发现可靠地生成物理上可执行的行为仍然是一个开放的挑战。常见的失败模式包括空间推理错误、不稳定的接触预测和非物理变形。虽然在操作数据上进行微调可以带来改进,但物理不一致仍然存在,这表明为机器人进行更符合物理规律的视频生成存在机会。

🔬 方法详解

问题定义:现有视频世界模型虽然视觉效果逼真,但缺乏物理合理性,导致预测的机器人行为在实际执行中失败。现有基准测试侧重于感知或诊断,未能系统评估预测行为的可执行性。因此,需要一个专门针对机器人操作的、能够评估物理合理性的基准测试。

核心思路:RoboWM-Bench的核心思路是将视频世界模型生成的行为转化为机器人可执行的动作序列,并通过真实的机器人操作来验证这些动作序列的有效性。通过这种方式,可以直接评估世界模型预测的物理合理性,并发现潜在的缺陷。

技术框架:RoboWM-Bench包含以下主要模块:1) 视频世界模型:用于生成未来视频帧;2) 行为转换器:将生成的视频帧转换为机器人动作序列;3) 机器人执行环境:用于执行转换后的动作序列并评估其成功率;4) 评估指标:用于量化评估世界模型的性能,例如成功率、轨迹偏差等。该框架提供了一个统一的协议,用于一致且可重复的评估。

关键创新:RoboWM-Bench的关键创新在于其具身基础评估方法,即通过真实的机器人执行来验证世界模型预测的物理合理性。这与传统的基于视觉或诊断的评估方法不同,能够更直接地反映世界模型在实际应用中的性能。此外,该基准测试涵盖了多种操作场景,并提供了一个统一的评估协议。

关键设计:行为转换器是关键的设计之一,它需要将视觉信息转化为机器人可理解和执行的动作指令。具体实现可能涉及逆运动学、强化学习或其他控制算法。评估指标的设计也至关重要,需要能够准确反映机器人操作的成功率和轨迹质量。此外,基准测试中使用的操作场景需要具有代表性,能够覆盖机器人操作中常见的挑战。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

使用RoboWM-Bench评估了最先进的视频世界模型,发现它们在生成物理上可执行的行为方面仍然面临挑战。常见的失败模式包括空间推理错误、不稳定的接触预测和非物理变形。虽然在操作数据上进行微调可以带来改进,但物理不一致仍然存在。这些结果表明,为机器人进行更符合物理规律的视频生成仍然是一个重要的研究方向。

🎯 应用场景

RoboWM-Bench可用于评估和改进视频世界模型在机器人操作领域的应用。通过该基准测试,研究人员可以更好地了解现有世界模型的局限性,并开发更符合物理规律的视频生成方法。这有助于提高机器人操作的自主性和可靠性,并促进机器人在工业、医疗、家庭服务等领域的广泛应用。

📄 摘要(原文)

Recent advances in large-scale video world models have enabled increasingly realistic future prediction, raising the prospect of leveraging imagined videos for robot learning. However, visual realism does not imply physical plausibility, and behaviors inferred from generated videos may violate dynamics and fail when executed by embodied agents. Existing benchmarks begin to incorporate notions of physical plausibility, but they largely remain perception- or diagnostic-oriented and do not systematically evaluate whether predicted behaviors can be translated into executable actions that complete the intended task. To address this gap, we introduce RoboWM-Bench, a manipulation-centric benchmark for embodiment-grounded evaluation of video world models. RoboWM-Bench converts generated behaviors from both human-hand and robotic manipulation videos into embodied action sequences and validates them through robotic execution. The benchmark spans diverse manipulation scenarios and establishes a unified protocol for consistent and reproducible evaluation. Using RoboWM-Bench, we evaluate state-of-the-art video world models and find that reliably generating physically executable behaviors remains an open challenge. Common failure modes include errors in spatial reasoning, unstable contact prediction, and non-physical deformations. While finetuning on manipulation data yields improvements, physical inconsistencies still persist, suggesting opportunities for more physically grounded video generation for robots.