World Reasoning Arena

📄 arXiv: 2603.25887v1 📥 PDF

作者: PAN Team, Qiyue Gao, Kun Zhou, Jiannan Xiang, Zihan Liu, Dequan Yang, Junrong Chen, Arif Ahmad, Cong Zeng, Ganesh Bannur, Xinqi Huang, Zheqi Liu, Yi Gu, Yichi Yang, Guangyi Liu, Zhiting Hu, Zhengzhong Liu, Eric Xing

分类: cs.CV

发布日期: 2026-03-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出WR-Arena,用于评估世界模型在动作模拟、长时预测和推理规划方面的能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 世界模型 基准测试 动作模拟 长时预测 推理规划 智能体 模拟环境

📋 核心要点

  1. 现有世界模型基准测试过于关注视觉逼真度,缺乏对智能行为所需模拟能力的全面评估。
  2. WR-Arena通过动作模拟保真度、长时预测和模拟推理规划三个维度,综合评估世界模型。
  3. 实验结果表明,现有世界模型与人类水平的假设推理存在显著差距,WR-Arena可作为诊断工具。

📝 摘要(中文)

世界模型旨在作为真实世界的内部模拟器,使智能体能够理解、预测复杂环境并采取行动。现有的世界模型基准测试主要集中于下一状态预测和视觉逼真度,忽略了智能行为所需的更丰富的模拟能力。为了弥补这一差距,我们推出了WR-Arena,这是一个综合基准,用于评估世界模型在下一世界模拟的三个基本维度上的能力:(i)动作模拟保真度,即解释和遵循语义上有意义的多步骤指令并生成多样化反事实推演的能力;(ii)长时预测,即在扩展交互中维持准确、连贯且物理上合理的模拟的能力;(iii)模拟推理和规划,即通过模拟、比较和选择结构化和开放式环境中替代未来来支持目标导向推理的能力。我们构建了一个任务分类法并策划了多样化的数据集,旨在探究这些能力,超越了单轮和感知评估。通过对最先进的世界模型进行广泛的实验,我们的结果揭示了当前模型与人类水平的假设推理之间存在巨大差距,并将WR-Arena确立为诊断工具和指导方针,以推进能够实现稳健理解、预测和有目的行动的下一代世界模型。

🔬 方法详解

问题定义:现有世界模型评估基准主要关注下一状态预测和视觉逼真度,忽略了智能行为所需的更丰富的模拟能力,如理解语义指令、进行长时预测和支持目标导向推理。这导致我们难以全面评估和提升世界模型的智能水平。

核心思路:WR-Arena的核心思路是构建一个综合性的基准测试,从动作模拟保真度、长时预测和模拟推理规划三个维度来评估世界模型。通过设计多样化的任务和数据集,探究模型在理解指令、预测未来和进行推理方面的能力。这样可以更全面地了解世界模型的优缺点,并指导未来的研究方向。

技术框架:WR-Arena包含以下几个主要组成部分: 1. 任务分类法:定义了不同类型的任务,涵盖动作模拟、长时预测和推理规划。 2. 多样化数据集:包含了各种场景和任务,用于评估世界模型在不同情况下的表现。 3. 评估指标:定义了用于衡量模型性能的指标,如准确率、连贯性和物理合理性。 4. 实验平台:提供了一个统一的平台,方便研究人员进行实验和比较不同模型。

关键创新:WR-Arena的关键创新在于其综合性的评估体系,它超越了传统的单轮和感知评估,关注世界模型在理解、预测和推理方面的能力。通过构建多样化的任务和数据集,WR-Arena能够更全面地评估世界模型的性能,并揭示其潜在的局限性。

关键设计:WR-Arena的关键设计包括: 1. 动作模拟保真度:设计了需要模型理解和遵循语义指令的任务,并评估模型生成反事实推演的能力。 2. 长时预测:设计了需要模型进行长时预测的任务,并评估模型在扩展交互中维持准确、连贯且物理上合理的模拟的能力。 3. 模拟推理和规划:设计了需要模型进行目标导向推理的任务,并评估模型通过模拟、比较和选择替代未来来支持推理的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有最先进的世界模型在WR-Arena上的表现与人类水平的假设推理存在显著差距,这突显了当前模型在理解复杂环境和进行长时推理方面的局限性。WR-Arena的发布为研究人员提供了一个诊断工具,可以更有效地评估和改进世界模型。

🎯 应用场景

WR-Arena可应用于机器人、自动驾驶、游戏AI等领域,帮助提升智能体在复杂环境中的理解、预测和决策能力。通过更准确地模拟真实世界,世界模型可以使智能体更好地适应各种情况,并做出更明智的决策,从而提高其安全性和效率。此外,WR-Arena还可以促进世界模型的研究和发展,推动人工智能技术的进步。

📄 摘要(原文)

World models (WMs) are intended to serve as internal simulators of the real world that enable agents to understand, anticipate, and act upon complex environments. Existing WM benchmarks remain narrowly focused on next-state prediction and visual fidelity, overlooking the richer simulation capabilities required for intelligent behavior. To address this gap, we introduce WR-Arena, a comprehensive benchmark for evaluating WMs along three fundamental dimensions of next world simulation: (i) Action Simulation Fidelity, the ability to interpret and follow semantically meaningful, multi-step instructions and generate diverse counterfactual rollouts; (ii) Long-horizon Forecast, the ability to sustain accurate, coherent, and physically plausible simulations across extended interactions; and (iii) Simulative Reasoning and Planning, the ability to support goal-directed reasoning by simulating, comparing, and selecting among alternative futures in both structured and open-ended environments. We build a task taxonomy and curate diverse datasets designed to probe these capabilities, moving beyond single-turn and perceptual evaluations. Through extensive experiments with state-of-the-art WMs, our results expose a substantial gap between current models and human-level hypothetical reasoning, and establish WR-Arena as both a diagnostic tool and a guideline for advancing next-generation world models capable of robust understanding, forecasting, and purposeful action. The code is available at https://github.com/MBZUAI-IFM/WR-Arena.