WorldArena 2.0: Extending Embodied World Model Benchmarking on Modality, Functionality and Platform

📄 arXiv: 2605.17912v1 📥 PDF

作者: Yu Shang, Yinzhou Tang, Yiding Ma, Zhuohang Li, Lei Jin, Weikang Su, Xin Jin, Zhaolu Wang, Ziyou Wang, Xin Zhang, Haisheng Su, Weizhen He, Wei Wu, Haoyi Duan, Gordon Wetzstein, Xihui Liu, Dhruv Shah, Zhaoxiang Zhang, Zhibo Chen, Jun Zhu, Yonghong Tian, Tat-Seng Chua, Wenwu Zhu, Chen Gao, Yong Li

分类: cs.RO, cs.CV

发布日期: 2026-05-18


💡 一句话要点

WorldArena 2.0:扩展具身世界模型基准测试,覆盖模态、功能和平台

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 世界模型 基准测试 多模态感知 强化学习 机器人 模拟环境 真实世界

📋 核心要点

  1. 现有具身世界模型基准测试在模态、功能和平台方面存在局限性,无法充分评估日益复杂的模型。
  2. WorldArena 2.0通过扩展模态(视觉触觉)、功能(交互式RL)和平台(模拟与真实机器人)来解决上述问题。
  3. WorldArena 2.0提供标准化协议,全面评估感知质量、交互效用和跨平台性能,促进具身世界模型发展。

📝 摘要(中文)

世界模型已成为具身智能的核心范式,使智能体能够预测动作条件下的未来并推理环境动态。然而,现有的具身世界模型基准测试仍然主要局限于仅视觉预测、离线具身应用和基于模拟器的评估,这使得它们不足以评估日益全面的世界模型。本文介绍了WorldArena 2.0,这是一个扩展的基准,它沿着三个维度系统地扩展了具身世界模型评估:模态、功能和平台。在模态维度上,WorldArena 2.0将评估从仅视觉扩展到视觉触觉模态,从而能够评估多模态感知和预测。在功能维度上,它扩展到策略评估和规划之外,以评估世界模型作为用于策略优化的交互式强化学习环境。在平台维度上,它从仅模拟器评估转向跨多个具身形态的各种模拟和真实世界机器人设置。在标准化协议下,WorldArena 2.0全面评估感知质量、交互效用和跨平台性能,为跟踪具身世界模型的进展提供了一个全面的测试平台。该基准可在https://world-arena.ai上获得。

🔬 方法详解

问题定义:现有的具身世界模型基准测试主要集中在视觉信息、离线应用和模拟环境,无法充分评估多模态感知、交互式强化学习以及真实世界部署能力。这限制了对更全面、更实用的世界模型的研究和发展。

核心思路:WorldArena 2.0的核心思路是扩展现有基准测试的范围,使其能够更全面地评估具身世界模型。通过增加模态类型(视觉+触觉)、扩展功能范围(策略优化)和引入真实世界平台,该基准旨在推动世界模型在更复杂和实际的场景中的应用。

技术框架:WorldArena 2.0的整体框架包含三个主要维度:模态、功能和平台。在模态维度,它支持视觉和触觉信息的输入和预测。在功能维度,它不仅评估策略,还支持将世界模型作为交互式强化学习环境进行策略优化。在平台维度,它包含模拟环境和真实机器人平台,以评估模型的跨平台性能。

关键创新:WorldArena 2.0的关键创新在于其综合性。它不仅扩展了模态,还扩展了功能和平台,从而提供了一个更全面的评估框架。这种综合性的评估能够更好地反映世界模型在实际应用中的性能,并促进相关研究的进展。

关键设计:WorldArena 2.0采用标准化协议,确保评估结果的可比性。具体的技术细节包括:定义统一的评估指标,设计标准化的交互接口,以及提供多种模拟和真实机器人平台。此外,该基准还提供了详细的文档和示例代码,方便研究人员使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WorldArena 2.0通过标准化协议,在多模态感知、交互式强化学习和跨平台性能方面对具身世界模型进行了全面评估。具体性能数据和对比基线将在benchmark网站上持续更新,为研究人员提供参考。

🎯 应用场景

WorldArena 2.0可应用于机器人导航、操作、人机交互等领域。它能够帮助研究人员开发更智能、更具适应性的机器人系统,例如,在复杂环境中自主导航的机器人、能够灵巧操作物体的机器人手臂,以及能够与人类自然交互的机器人助手。该基准的推广将加速具身智能技术的发展。

📄 摘要(原文)

World models have emerged as a central paradigm for embodied intelligence, enabling agents to predict action-conditioned future and reason about environmental dynamics. However, existing embodied world model benchmarks are still largely confined to vision-only prediction, offline embodied applications, and simulator-based evaluation, making them insufficient for assessing increasingly comprehensive world models. In this work, we introduce WorldArena 2.0, an expanded benchmark that systematically broadens embodied world model evaluation along three dimensions: modality, functionality, and platform. Along the modality dimension, WorldArena 2.0 extends evaluation from vision-only to visuotactile modalities, enabling assessment of multimodal perception and prediction. Along the functionality dimension, it extends beyond policy evaluation and planning to assess world models as interactive RL environments for policy optimization. Along the platform dimension, it moves beyond simulator-only evaluation to a diverse suite of simulated and real-world robotic settings across multiple embodiments. Under a standardized protocol, WorldArena 2.0 comprehensively evaluates perceptual quality, interactive utility, and cross-platform performance, providing a comprehensive testbed for tracking progress toward embodied world models. The benchmark is available at: https://world-arena.ai.