E3VS-Bench: A Benchmark for Viewpoint-Dependent Active Perception in 3D Gaussian Splatting Scenes

📄 arXiv: 2604.17969v1 📥 PDF

作者: Koya Sakamoto, Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Shu Morikuni, Naoya Chiba, Motoaki Kawanabe, Yusuke Iwasawa, Yutaka Matsuo

分类: cs.CV

发布日期: 2026-04-20


💡 一句话要点

E3VS-Bench:基于3D高斯溅射场景的视角依赖主动感知基准

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 3D视觉搜索 主动感知 视角依赖 3D高斯溅射

📋 核心要点

  1. 现有视觉搜索和具身AI基准依赖静态观察或受限的自我中心运动,无法充分评估真实3D环境中细粒度的视角依赖现象。
  2. E3VS-Bench通过构建基于3D高斯溅射的逼真场景,允许智能体在5自由度下自由移动视角,从而收集视角相关的证据。
  3. 实验表明,现有VLM在E3VS-Bench上与人类表现存在显著差距,揭示了模型在主动感知和视角规划方面的不足。

📝 摘要(中文)

本文提出了E3VS-Bench,一个用于具身3D视觉搜索的基准,旨在评估智能体在5自由度视角控制下,收集视角依赖证据以进行问答的能力。该基准包含99个使用3D高斯溅射重建的高保真3D场景和2014个问题驱动的episode。3D高斯溅射能够实现逼真的自由视角渲染,保留了精细的视觉细节(例如,小文本和细微的属性),这些细节在基于网格的模拟器中通常会退化。这使得构建无法从单个视角回答的问题成为可能,而是需要跨5自由度视角的积极检查。我们评估了多个最先进的VLM,并将它们的性能与人类进行了比较。尽管具有强大的2D推理能力,但所有模型都表现出与人类的显著差距,突显了在完全5自由度视角变化下,主动感知和连贯视角规划的局限性。

🔬 方法详解

问题定义:现有具身视觉搜索基准难以评估智能体在复杂3D环境中,利用视角变化获取信息的能力。传统方法依赖静态图像或有限的视角移动,无法模拟真实世界中需要精细视角调整才能观察到的物体属性和关系,例如容器内部的物品或特定角度才能识别的物体特征。这限制了对智能体主动感知和视角规划能力的评估。

核心思路:本文的核心思路是构建一个更逼真、更具挑战性的3D视觉搜索基准,该基准允许智能体在5自由度下自由控制视角,并需要智能体通过主动探索和视角调整来收集回答问题所需的证据。通过使用3D高斯溅射技术,可以生成具有高保真度和精细视觉细节的场景,从而能够设计需要视角依赖信息的复杂问题。

技术框架:E3VS-Bench基准包含以下几个主要组成部分:1) 使用3D高斯溅射重建的99个高保真3D场景;2) 2014个问题驱动的episode,每个episode包含一个需要智能体回答的问题;3) 一个模拟环境,允许智能体在5自由度下控制视角并观察场景;4) 一套评估指标,用于衡量智能体回答问题的准确性和效率。智能体需要根据问题,在场景中主动探索,调整视角,收集相关信息,并最终给出答案。

关键创新:E3VS-Bench的关键创新在于:1) 使用3D高斯溅射技术生成高保真度的3D场景,保留了精细的视觉细节;2) 允许智能体在5自由度下自由控制视角,模拟了真实世界中的视角变化;3) 设计了需要视角依赖信息的复杂问题,挑战了智能体的主动感知和视角规划能力。与现有基准相比,E3VS-Bench更真实、更具挑战性,能够更全面地评估智能体的具身智能水平。

关键设计:在场景重建方面,使用了高质量的图像数据和先进的3D高斯溅射算法,确保场景的逼真度和细节。在问题设计方面,问题涵盖了多种需要视角依赖信息的场景,例如识别容器内部的物品、区分不同角度才能观察到的物体属性等。在评估指标方面,除了准确率之外,还考虑了智能体的探索效率,例如完成任务所需的步数和时间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最先进的VLM在E3VS-Bench上的表现也远低于人类水平,突显了现有模型在主动感知和视角规划方面的不足。例如,在需要观察容器内部物品的问题上,VLM的准确率显著低于人类。这表明,虽然VLM在2D图像理解方面取得了很大进展,但在复杂3D环境中进行主动探索和推理仍然是一个巨大的挑战。该基准为未来研究提供了明确的方向。

🎯 应用场景

E3VS-Bench基准的提出,将推动具身智能、机器人视觉和主动感知领域的发展。该基准可用于训练和评估智能体在复杂3D环境中进行视觉搜索、目标识别和问答的能力。潜在应用包括:智能家居助手、仓库机器人、自动驾驶等,这些应用都需要智能体具备在真实环境中主动探索和理解场景的能力。未来,该基准可以扩展到更复杂的场景和任务,例如导航、操作等。

📄 摘要(原文)

Visual search in 3D environments requires embodied agents to actively explore their surroundings and acquire task-relevant evidence. However, existing visual search and embodied AI benchmarks, including EQA, typically rely on static observations or constrained egocentric motion, and thus do not explicitly evaluate fine-grained viewpoint-dependent phenomena that arise under unrestricted 5-DoF viewpoint control in real-world 3D environments, such as visibility changes caused by vertical viewpoint shifts, revealing contents inside containers, and disambiguating object attributes that are only observable from specific angles. To address this limitation, we introduce {E3VS-Bench}, a benchmark for embodied 3D visual search where agents must control their viewpoints in 5-DoF to gather viewpoint-dependent evidence for question answering. E3VS-Bench consists of 99 high-fidelity 3D scenes reconstructed using 3D Gaussian Splatting and 2,014 question-driven episodes. 3D Gaussian Splatting enables photorealistic free-viewpoint rendering that preserves fine-grained visual details (e.g., small text and subtle attributes) often degraded in mesh-based simulators, thereby allowing the construction of questions that cannot be answered from a single view and instead require active inspection across viewpoints in 5-DoF. We evaluate multiple state-of-the-art VLMs and compare their performance with humans. Despite strong 2D reasoning ability, all models exhibit a substantial gap from humans, highlighting limitations in active perception and coherent viewpoint planning specifically under full 5-DoF viewpoint changes.