Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test
作者: Chun-Kai Fan, Xiaowei Chi, Xiaozhu Ju, Hao Li, Yong Bao, Yu-Kai Wang, Lizhang Chen, Zhiyuan Jiang, Kuangzhi Ge, Ying Li, Weishi Mi, Qingpo Wuwu, Peidong Jia, Yulin Luo, Kevin Zhang, Zhiyuan Qin, Yong Dai, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang
分类: cs.RO, cs.AI, cs.CV
发布日期: 2026-01-07
💡 一句话要点
提出WoW-World-Eval基准以评估视频基础模型在具身AI中的表现
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身AI 视频基础模型 生成能力 评估基准 机器人操作 物理一致性 长时间规划 图灵测试
📋 核心要点
- 现有视频基础模型在生成泛化能力和鲁棒性方面存在不足,影响其在具身AI中的应用。
- 本文提出WoW-World-Eval基准,通过标准化框架评估模型在多个核心能力上的表现。
- 实验结果显示,模型在长时间规划和物理一致性方面的得分较低,揭示了生成视频与现实世界之间的显著差距。
📝 摘要(中文)
随着世界模型在具身AI中的应用日益增多,越来越多的研究开始探索使用视频基础模型作为下游任务的预测模型。然而,视频基础模型在生成泛化能力和鲁棒性方面仍存在两个关键问题尚未解决。为此,本文提出了具身图灵测试基准WoW-World-Eval,基于609个机器人操作数据,评估模型在感知、规划、预测、泛化和执行等五个核心能力上的表现。通过22项指标的综合评估协议,研究发现模型在长时间规划和物理一致性方面的表现有限,强调了在具身AI中对世界模型基准测试的迫切需求。
🔬 方法详解
问题定义:本文旨在解决视频基础模型在具身AI中生成泛化能力不足和鲁棒性不足的问题。现有方法未能有效评估模型在实际应用中的表现,导致生成结果与真实世界存在显著差距。
核心思路:论文提出了具身图灵测试基准WoW-World-Eval,旨在通过标准化的评估框架来检验视频基础模型的生成能力和鲁棒性。通过对模型在感知、规划、预测、泛化和执行等方面的综合评估,提供了更为全面的性能分析。
技术框架:整体架构包括数据收集、模型评估和结果分析三个主要模块。首先,基于609个机器人操作数据进行数据收集;其次,采用22项指标对模型进行评估;最后,通过分析评估结果,得出模型在不同能力上的表现。
关键创新:最重要的技术创新在于提出了WoW-World-Eval基准,系统性地评估视频基础模型的生成能力,并建立了与人类偏好的高相关性。这一方法与现有的评估方法相比,提供了更为可靠的基准。
关键设计:在评估过程中,设置了多项关键参数和损失函数,以确保模型在不同能力上的全面评估。特别是在执行准确性方面,采用了逆动态模型进行测试,确保评估结果的真实性和有效性。
📊 实验亮点
实验结果显示,模型在长时间规划方面的得分仅为17.27,而在物理一致性方面的最佳得分为68.02,表明模型在时空一致性和物理推理方面的能力有限。此外,逆动态模型测试中,大多数模型的成功率接近0%,而WoW模型的成功率为40.74%,显示出明显的性能差距。
🎯 应用场景
该研究的潜在应用领域包括机器人操作、虚拟现实和增强现实等具身AI场景。通过建立标准化的评估基准,研究为未来的模型开发和优化提供了重要参考,推动了具身AI技术的进步与应用。
📄 摘要(原文)
As world models gain momentum in Embodied AI, an increasing number of works explore using video foundation models as predictive world models for downstream embodied tasks like 3D prediction or interactive generation. However, before exploring these downstream tasks, video foundation models still have two critical questions unanswered: (1) whether their generative generalization is sufficient to maintain perceptual fidelity in the eyes of human observers, and (2) whether they are robust enough to serve as a universal prior for real-world embodied agents. To provide a standardized framework for answering these questions, we introduce the Embodied Turing Test benchmark: WoW-World-Eval (Wow,wo,val). Building upon 609 robot manipulation data, Wow-wo-val examines five core abilities, including perception, planning, prediction, generalization, and execution. We propose a comprehensive evaluation protocol with 22 metrics to assess the models' generation ability, which achieves a high Pearson Correlation between the overall score and human preference (>0.93) and establishes a reliable foundation for the Human Turing Test. On Wow-wo-val, models achieve only 17.27 on long-horizon planning and at best 68.02 on physical consistency, indicating limited spatiotemporal consistency and physical reasoning. For the Inverse Dynamic Model Turing Test, we first use an IDM to evaluate the video foundation models' execution accuracy in the real world. However, most models collapse to $\approx$ 0% success, while WoW maintains a 40.74% success rate. These findings point to a noticeable gap between the generated videos and the real world, highlighting the urgency and necessity of benchmarking World Model in Embodied AI.