ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop
作者: Yining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi
分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.RO
发布日期: 2026-05-18
备注: https://esi-bench.github.io/
💡 一句话要点
提出ESI-BENCH基准,用于评估具身智能体在感知-行动闭环中的空间智能
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 具身智能 空间智能 主动探索 感知-行动闭环 元认知 机器人 基准测试 多模态学习
📋 核心要点
- 现有空间智能研究假设智能体拥有完美的观测,忽略了感知与行动之间的闭环反馈。
- ESI-BENCH基准将观察者视为行动者,要求智能体主动探索环境以获取任务相关信息。
- 实验表明,主动探索优于被动观测,但模型在行动选择和元认知方面存在不足。
📝 摘要(中文)
本文超越了以往假设智能体拥有完美观测的空间智能研究,将观察者重新定义为行动者。我们提出了ESI-BENCH,一个全面的具身空间智能基准,涵盖10个任务类别和29个子类别,构建于OmniGibson之上,并基于Spelke的核心知识系统。智能体必须决定部署哪些能力(感知、运动和操作),以及如何排序这些能力,以主动积累与任务相关的证据。我们对最先进的MLLM进行了广泛的实验,发现主动探索明显优于被动探索,智能体自发地发现了涌现的空间策略,而无需明确的指令。随机多视角方法通常会增加噪声,而不是信号,尽管消耗了更多的图像。大多数失败并非源于感知能力薄弱,而是源于行动盲目:糟糕的行动选择导致糟糕的观察,进而导致级联错误。虽然显式的3D基础稳定了对深度敏感任务的推理,但不完善的3D表示比2D基线更有害,因为它扭曲了空间关系。人类研究进一步表明,与寻找证伪观点并在矛盾下修正信念的人类不同,模型会过早地以高置信度提交结果,而不管证据质量如何,这暴露了一个元认知差距,仅靠更好的感知或更多的具身交互都无法弥合。
🔬 方法详解
问题定义:现有空间智能研究通常假设智能体拥有完美的感知能力,即直接获取场景的完整信息。然而,在现实世界中,智能体需要通过自身的行动来主动获取信息,例如移动到不同的位置观察被遮挡的物体。现有方法忽略了感知和行动之间的闭环反馈,无法有效解决需要主动探索才能完成的任务。
核心思路:本文的核心思路是将观察者重新定义为行动者,强调智能体通过行动来主动获取信息的重要性。智能体需要根据当前的任务目标和环境状态,选择合适的行动策略,从而获取更有利于完成任务的观测数据。这种主动探索的方式能够帮助智能体更好地理解环境,并做出更合理的决策。
技术框架:ESI-BENCH基准构建于OmniGibson模拟器之上,包含10个任务类别和29个子类别。智能体需要选择并排序感知、运动和操作等能力,以主动积累任务相关的证据。基准测试涵盖了多种空间智能任务,例如物体定位、关系推理、场景理解等。智能体通过与环境交互,获取视觉、深度等信息,并利用这些信息进行推理和决策。
关键创新:ESI-BENCH的关键创新在于它强调了具身智能体在感知-行动闭环中的作用。与以往的静态场景理解任务不同,ESI-BENCH要求智能体主动探索环境,并根据自身的行动来调整感知策略。这种主动探索的方式能够帮助智能体更好地理解环境,并做出更合理的决策。此外,该基准还关注智能体的元认知能力,即智能体对自身认知过程的理解和控制能力。
关键设计:ESI-BENCH的设计考虑了多个方面,包括任务的多样性、环境的复杂性以及评估指标的合理性。任务涵盖了多种空间智能能力,例如物体定位、关系推理、场景理解等。环境包含了各种各样的物体和场景,模拟了真实世界的复杂性。评估指标综合考虑了智能体的完成度、效率和鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,主动探索策略明显优于被动观测策略。在某些任务中,智能体甚至能够自发地发现一些涌现的空间策略,而无需明确的指令。然而,实验也发现,智能体在行动选择和元认知方面存在不足,例如容易做出错误的行动选择,或者过早地以高置信度提交结果,而不管证据质量如何。不完善的3D表示比2D基线更有害,因为它扭曲了空间关系。
🎯 应用场景
该研究成果可应用于机器人导航、智能家居、自动驾驶等领域。通过让智能体具备主动探索和理解环境的能力,可以提高其在复杂环境中的适应性和鲁棒性。例如,在机器人导航中,智能体可以通过主动探索来发现未知的障碍物,并规划出更安全的路径。在智能家居中,智能体可以通过主动观察来了解用户的需求,并提供更个性化的服务。
📄 摘要(原文)
Spatial intelligence unfolds through a perception-action loop: agents act to acquire observations, and reason about how observations vary as a function of action. Rather than passively processing what is seen, they actively uncover what is unseen - occluded structure, dynamics, containment, and functionality that cannot be resolved from passive sensing alone. We move beyond prior formulations of spatial intelligence that assume oracle observations by recasting the observer as an actor. We introduce ESI-BENCH, a comprehensive benchmark for embodied spatial intelligence spanning 10 task categories and 29 subcategories built on OmniGibson, grounded in Spelke's core knowledge systems. Agents must decide what abilities to deploy - perception, locomotion, and manipulation - and how to sequence them to actively accumulate task-relevant evidence. We conduct extensive experiments on state-of-the-art MLLMs and find that active exploration substantially outperforms passive counterparts, with agents spontaneously discovering emergent spatial strategies without explicit instructions, while random multi-view often adds noise rather than signal despite consuming far more images. Most failures stem not from weak perception but from action blindness: poor action choices lead to poor observations, which in turn drive cascading errors. While explicit 3D grounding stabilizes reasoning on depth-sensitive tasks, imperfect 3D representation proves more harmful than 2D baselines by distorting spatial relations. Human studies further reveal that unlike humans who seek falsifying viewpoints and revise beliefs under contradiction, models commit prematurely with high confidence regardless of evidence quality, exposing a metacognitive gap that neither better perception nor more embodied interaction alone can close.