SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks
作者: Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong
分类: cs.AI, cs.CL
发布日期: 2026-06-08
💡 一句话要点
提出SpatialWorld以解决多模态智能体的空间推理评估问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 空间推理 多模态智能体 评估基准 交互理解 真实世界任务 智能系统
📋 核心要点
- 现有基准主要依赖被动评估或特定模拟器管道,无法有效评估多模态智能体的交互空间理解能力。
- SpatialWorld是一个统一的基准,整合多个模拟后端,专门用于评估智能体在复杂任务中的空间理解能力。
- 评估结果显示,最强模型的任务成功率仅为17.4%,表明当前智能体在空间任务解决上仍面临重大挑战。
📝 摘要(中文)
空间推理是多模态大型语言模型(MLLMs)在物理世界中感知和操作的基础能力。然而,现有基准主要依赖于被动评估(如静态视觉问答)或特定模拟器的管道,无法有效评估一般的交互式空间理解。我们提出了SpatialWorld,这是一个专门设计用于评估多模态智能体在复杂现实任务中交互空间理解的统一基准。SpatialWorld整合了八个异构模拟后端,采用共享的模拟器无关协议,涵盖760个跨多个领域(如家庭日常、旅行、社交协作)的人类标注任务。智能体必须在仅有视觉的部分可观测性下解决任务,主动收集自我中心的视觉证据,并通过统一的文本动作接口表达决策。每个任务都包括经过人类验证的初始状态、参考轨迹和终态验证器,以确保评估的可靠性。对15个先进智能体的评估显示,稳健的空间任务解决仍然具有挑战性:最强模型GPT-5的平均任务成功率仅为17.4%,而领先的开源模型Qwen-3.5则为14.1%。进一步分析揭示了任务成功与执行效率之间的明显不匹配,以及显著的领域特定性能差异。这些在主动探索和长远规划中的瓶颈使得SpatialWorld成为未来空间智能体的严格测试平台。
🔬 方法详解
问题定义:本论文旨在解决现有多模态智能体在空间推理评估中的不足,特别是缺乏有效的交互式评估基准。现有方法无法全面评估智能体在真实世界复杂任务中的空间理解能力。
核心思路:我们提出SpatialWorld作为一个统一的基准,整合多个模拟后端,采用无关模拟器的协议,以便在多种任务中评估智能体的交互空间理解。这样的设计旨在提供一个更全面的评估框架,能够反映智能体在真实世界中的表现。
技术框架:SpatialWorld的整体架构包括任务生成、智能体交互、评估模块等。任务生成模块负责创建多样化的任务,智能体交互模块则允许智能体在视觉信息的基础上进行决策,评估模块则确保任务的可靠性和有效性。
关键创新:SpatialWorld的最大创新在于其整合了多种模拟后端,并采用统一的评估协议,这与现有方法的特定模拟器依赖形成鲜明对比。此设计使得评估更加灵活和全面。
关键设计:在任务设计中,每个任务都包含经过人类验证的初始状态、参考轨迹和终态验证器,以确保评估的可靠性。此外,智能体通过统一的文本接口进行决策,增强了交互的自然性和有效性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,最强模型GPT-5在760个任务中的平均成功率仅为17.4%,而开源模型Qwen-3.5的成功率为14.1%。这些结果表明,当前智能体在空间任务解决方面仍存在显著挑战,尤其是在执行效率和领域特定性能方面的差异。
🎯 应用场景
SpatialWorld的研究成果可广泛应用于智能机器人、虚拟助手和自动驾驶等领域,帮助这些系统更好地理解和操作复杂的物理环境。通过提升智能体的空间推理能力,未来可以实现更高效的任务执行和人机协作,推动智能技术的进步。
📄 摘要(原文)
Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and operate within the physical world. However, existing benchmarks predominantly rely on passive evaluation (e.g., static VQA) or simulator-specific pipelines, failing to assess general interactive spatial understanding. We introduce SpatialWorld, a unified benchmark designed specifically for evaluating the interactive spatial understanding of multimodal agents in complex real-world tasks. Integrating eight heterogeneous simulation backends under a shared, simulator-agnostic protocol, SpatialWorld features 760 human-annotated tasks across diverse domains (e.g., household routines, travel, social collaboration). Agents must solve tasks under vision-only partial observability, actively gathering egocentric visual evidence and expressing decisions via a unified, text-based action interface native to MLLMs. For reliable evaluation, each task includes a human-validated initial state, a reference trajectory, and a terminal-state verifier. Evaluating 15 advanced agents reveals that robust spatial task solving remains challenging: the strongest model, GPT-5, achieves an average task success rate (TSR) of only 17.4%, while the leading open-source model, Qwen-3.5, reaches 14.1%. Further analysis exposes a clear mismatch between task success and execution efficiency, alongside substantial domain-specific performance variations. These bottlenecks in active exploration and long-horizon planning position SpatialWorld as a rigorous testbed for future spatial agents.