EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

📄 arXiv: 2603.09731v1 📥 PDF

作者: Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-03-10


💡 一句话要点

提出EXPLORE-Bench基准,评估MLLM在长时程自中心场景预测中的推理能力

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自中心场景预测 长时程推理 多模态大语言模型 具身智能 基准数据集

📋 核心要点

  1. 现有MLLM在长时程自中心场景理解中,对动作序列导致的物理世界变化推理能力不足。
  2. 提出EXPLORE-Bench基准,包含真实第一人称视频,用于评估模型预测动作序列后场景变化的能力。
  3. 实验表明现有MLLM与人类水平差距显著,分解长动作序列在一定程度上能提升性能。

📝 摘要(中文)

多模态大型语言模型(MLLM)正日益被视为具身智能体的基础,但它们能否可靠地推理自中心视角下动作的长期物理后果仍不清楚。本文通过一项新任务研究了这一差距:自中心场景预测与长时程推理。给定初始场景图像和一系列原子动作描述,模型需要预测所有动作执行后的最终场景。为了实现系统评估,我们引入了EXPLORE-Bench,这是一个从真实第一人称视频中整理的基准,涵盖了各种场景。每个实例将长动作序列与结构化的最终场景注释配对,包括对象类别、视觉属性和对象间关系,这支持细粒度的定量评估。对一系列专有和开源MLLM的实验表明,与人类相比存在显著的性能差距,表明长时程自中心推理仍然是一个主要挑战。我们进一步分析了通过逐步推理进行的测试时缩放,并表明分解长动作序列可以在一定程度上提高性能,同时产生不可忽略的计算开销。总而言之,EXPLORE-Bench为测量和推进自中心具身感知中的长时程推理提供了一个原则性的测试平台。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在长时程自中心场景预测任务中的推理能力不足的问题。现有方法难以准确预测执行一系列动作后场景的变化,尤其是在需要长时间推理的情况下。这限制了MLLM在具身智能体中的应用,因为智能体需要理解动作的长期后果才能做出合理的决策。

核心思路:论文的核心思路是通过构建一个包含长动作序列和对应场景变化的基准数据集EXPLORE-Bench,来系统地评估和提升MLLM在长时程推理方面的能力。该基准提供细粒度的场景注释,包括对象类别、视觉属性和对象间关系,从而可以进行定量评估。同时,论文还探索了通过逐步推理分解长动作序列的方法,以提高预测性能。

技术框架:EXPLORE-Bench基准包含从真实第一人称视频中提取的数据,每个实例包括初始场景图像、一系列原子动作描述以及最终场景的结构化注释。评估流程为:给定初始场景图像和动作序列,MLLM预测最终场景,然后将预测结果与真实注释进行比较,计算各种指标(如对象类别准确率、属性准确率等)。论文还研究了逐步推理方法,即将长动作序列分解为多个短序列,依次预测每个短序列后的场景变化,最终得到最终场景的预测。

关键创新:论文的关键创新在于构建了EXPLORE-Bench基准,这是一个专门用于评估长时程自中心场景预测任务的资源。该基准具有以下特点:1) 数据来自真实第一人称视频,更贴近实际应用场景;2) 包含长动作序列,需要模型进行长时间推理;3) 提供细粒度的场景注释,支持定量评估。此外,论文还探索了逐步推理方法,为解决长时程推理问题提供了一种可能的途径。

关键设计:EXPLORE-Bench基准的数据标注包括对象类别、视觉属性和对象间关系。评估指标包括对象类别准确率、属性准确率、关系准确率等。逐步推理方法中,动作序列的分解粒度是一个关键参数,需要在计算开销和预测精度之间进行权衡。论文中使用的MLLM包括专有模型和开源模型,具体模型架构和参数设置未详细说明(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有MLLM在EXPLORE-Bench基准上的性能与人类水平存在显著差距,表明长时程自中心推理仍然是一个挑战。通过逐步推理分解长动作序列可以在一定程度上提高性能,但会增加计算开销。具体性能提升幅度未给出具体数值(未知)。

🎯 应用场景

该研究成果可应用于机器人导航、虚拟助手、智能家居等领域。通过提升模型对长时程动作序列的理解和预测能力,可以使智能体更好地理解周围环境的变化,从而做出更合理的决策。例如,机器人可以根据一系列指令预测执行后的环境状态,从而规划更有效的路径。

📄 摘要(原文)

Multimodal large language models (MLLMs) are increasingly considered as a foundation for embodied agents, yet it remains unclear whether they can reliably reason about the long-term physical consequences of actions from an egocentric viewpoint. We study this gap through a new task, Egocentric Scene Prediction with LOng-horizon REasoning: given an initial-scene image and a sequence of atomic action descriptions, a model is asked to predict the final scene after all actions are executed. To enable systematic evaluation, we introduce EXPLORE-Bench, a benchmark curated from real first-person videos spanning diverse scenarios. Each instance pairs long action sequences with structured final-scene annotations, including object categories, visual attributes, and inter-object relations, which supports fine-grained, quantitative assessment. Experiments on a range of proprietary and open-source MLLMs reveal a significant performance gap to humans, indicating that long-horizon egocentric reasoning remains a major challenge. We further analyze test-time scaling via stepwise reasoning and show that decomposing long action sequences can improve performance to some extent, while incurring non-trivial computational overhead. Overall, EXPLORE-Bench provides a principled testbed for measuring and advancing long-horizon reasoning for egocentric embodied perception.