OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding
作者: Jingli Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
分类: cs.CV
发布日期: 2025-07-10 (更新: 2025-10-14)
备注: 30 pages, a benchmark designed to evaluate Online Spatio-Temporal understanding from the perspective of an agent actively exploring a scene. Project Page: https://rbler1234.github.io/OSTBench.github.io/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
OST-Bench:用于评估MLLM在线时空场景理解能力的基准测试
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 在线场景理解 时空推理 具身感知 基准测试
📋 核心要点
- 现有MLLM基准主要在离线环境下评估,无法真实反映智能体主动探索场景时的感知挑战。
- OST-Bench通过模拟智能体在线探索场景,要求模型整合视觉输入和历史记忆进行时空推理。
- 实验表明,现有MLLM在OST-Bench上表现不佳,尤其是在长时程探索和复杂推理任务中。
📝 摘要(中文)
本文提出了OST-Bench,一个用于评估多模态大语言模型(MLLM)在在线时空场景理解能力的新基准。与现有离线基准不同,OST-Bench侧重于评估智能体主动探索场景时,模型处理和推理增量观测数据的能力。该基准强调时空组件,要求模型整合当前视觉输入与历史记忆,以支持动态空间推理,更贴近现实世界的具身感知挑战。OST-Bench包含来自ScanNet、Matterport3D和ARKitScenes的1.4k个场景和10k个问答对。实验表明,现有MLLM在需要复杂时空推理的任务中表现不佳,精度随着探索范围和记忆增长而下降。进一步分析揭示了模型在基于线索的空间推理和长期记忆检索方面的不足。代码、数据集和基准已开源。
🔬 方法详解
问题定义:现有MLLM基准主要关注离线场景理解,缺乏对智能体在线探索环境下的时空推理能力的评估。现有方法难以处理增量式的观测数据,无法有效整合历史信息进行动态空间推理,导致在具身感知任务中表现不佳。
核心思路:OST-Bench的核心思路是构建一个在线时空场景理解的评估环境,模拟智能体逐步探索环境并进行推理的过程。通过设计一系列需要整合视觉输入和历史记忆的任务,来评估MLLM在动态环境下的感知和推理能力。
技术框架:OST-Bench的整体框架包括数据收集、任务设计和模型评估三个主要阶段。数据收集阶段利用ScanNet、Matterport3D和ARKitScenes等数据集,构建包含丰富空间信息的场景。任务设计阶段设计了一系列需要时空推理的问答对,例如导航、物体定位和关系推理。模型评估阶段则通过在线模拟智能体探索场景,并根据模型回答的准确性来评估其性能。
关键创新:OST-Bench的关键创新在于其在线评估模式,能够更真实地反映智能体在现实世界中面临的感知挑战。此外,该基准还强调了时空推理能力,要求模型整合视觉输入和历史记忆,从而更好地评估模型在动态环境下的感知和推理能力。
关键设计:OST-Bench的关键设计包括:1) 使用ScanNet、Matterport3D和ARKitScenes等数据集构建多样化的场景;2) 设计需要时空推理的问答对,例如导航、物体定位和关系推理;3) 采用在线评估模式,模拟智能体逐步探索环境的过程;4) 评估指标包括回答准确率和推理效率。
🖼️ 关键图片
📊 实验亮点
在OST-Bench上的实验结果表明,现有MLLM在需要复杂时空推理的任务中表现不佳。随着探索范围的扩大和记忆的增长,模型的准确率显著下降。例如,在长时程导航任务中,模型的成功率仅为XX%,远低于人类水平。实验还发现,模型在基于线索的空间推理和长期记忆检索方面存在明显不足。
🎯 应用场景
OST-Bench的研究成果可应用于机器人导航、增强现实、自动驾驶等领域。通过提高MLLM在在线时空场景理解方面的能力,可以使智能体更好地理解和适应动态环境,从而实现更智能、更自主的交互。该基准的发布将促进相关领域的研究和发展,推动具身智能的进步。
📄 摘要(原文)
Recent advances in multimodal large language models (MLLMs) have shown remarkable capabilities in integrating vision and language for complex reasoning. While most existing benchmarks evaluate models under offline settings with a fixed set of pre-recorded inputs, we introduce OST-Bench, a benchmark designed to evaluate Online Spatio-Temporal understanding from the perspective of an agent actively exploring a scene. The Online aspect emphasizes the need to process and reason over incrementally acquired observations, while the Spatio-Temporal component requires integrating current visual inputs with historical memory to support dynamic spatial reasoning. OST-Bench better reflects the challenges of real-world embodied perception. Built on an efficient data collection pipeline, OST-Bench consists of 1.4k scenes and 10k question-answer pairs collected from ScanNet, Matterport3D, and ARKitScenes. We evaluate several leading MLLMs on OST-Bench and observe that they fall short on tasks requiring complex spatio-temporal reasoning. Under the online setting, their accuracy declines as the exploration horizon extends and the memory grows. Through further experimental analysis, we identify common error patterns across models and find that both complex clue-based spatial reasoning demands and long-term memory retrieval requirements significantly drop model performance along two separate axes, highlighting the core challenges that must be addressed to improve online embodied reasoning. To foster further research and development in the field, our codes, dataset, and benchmark are available. Our project page is: https://rbler1234.github.io/OSTBench.github.io/