Towards Comprehensive Scene Understanding: Integrating First and Third-Person Views for LVLMs

📄 arXiv: 2505.21955v2 📥 PDF

作者: Insu Lee, Wooje Park, Jaeyun Jang, Minyoung Noh, Kyuhong Shim, Byonghyo Shim

分类: cs.CV, cs.AI

发布日期: 2025-05-28 (更新: 2025-10-24)

备注: Accepted to NeurIPS 2025 (Spotlight)

🔗 代码/项目: GITHUB


💡 一句话要点

提出E3VQA基准和M3CoT提示方法,融合第一人称和第三人称视角以提升LVLM的场景理解能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 多视角学习 视觉语言模型 场景理解 第一人称视角 第三人称视角

📋 核心要点

  1. 第一人称视角在交互应用中至关重要,但视野窄、缺乏全局信息限制了LVLM的场景理解能力。
  2. 论文提出结合第一人称和第三人称视角,利用互补信息增强LVLM的场景理解能力。
  3. 构建了E3VQA基准测试多视角问答,并提出M3CoT提示方法,实验表明性能显著提升。

📝 摘要(中文)

大型视觉语言模型(LVLM)越来越多地应用于虚拟现实和增强现实等交互式应用中,其中头戴式相机捕获的第一人称(自我中心)视角是关键输入。虽然这种视角提供了关于用户注意力和手部-物体交互的细粒度线索,但其狭窄的视野和缺乏全局上下文通常会导致在空间或上下文要求较高的查询上失败。为了解决这个问题,我们引入了一个框架,该框架使用第三人称(外中心)视角来增强自我中心输入,从而为LVLM提供补充信息,例如全局场景布局和物体可见性。我们提出了E3VQA,这是第一个多视角问答基准,包含4K高质量的问答对,这些问答对基于同步的自我-外部图像对。此外,我们提出了一种无需训练的提示技术M3CoT,该技术通过整合来自三个互补视角的场景图来构建统一的场景表示。M3CoT使LVLM能够更有效地跨视角进行推理,与最近的CoT基线相比,性能持续提升(GPT-4o提升4.84%,Gemini 2.0 Flash提升5.94%)。我们广泛的评估揭示了LVLM在多视角推理中的关键优势和局限性,并强调了利用自我中心和外中心输入两者的价值。数据集和源代码可在https://github.com/Leeinsu1/Towards-Comprehensive-Scene-Understanding上找到。

🔬 方法详解

问题定义:现有的大型视觉语言模型(LVLM)在处理第一人称视角数据时,由于视野范围有限以及缺乏全局场景上下文信息,难以应对需要空间推理或上下文理解的任务。这限制了LVLM在虚拟现实、增强现实等交互式应用中的应用。

核心思路:论文的核心思路是将第一人称(自我中心)视角与第三人称(外中心)视角相结合,利用两种视角的互补信息来提升LVLM的场景理解能力。第一人称视角提供细粒度的用户交互信息,而第三人称视角提供全局场景布局和物体可见性信息。通过融合这两种视角的信息,LVLM可以更全面地理解场景。

技术框架:论文提出的框架主要包含两个部分:E3VQA基准数据集和M3CoT提示方法。E3VQA是一个多视角问答数据集,包含同步的自我-外部图像对以及高质量的问答对。M3CoT是一种无需训练的提示技术,它通过整合来自三个互补视角的场景图(自我视角、外部视角和融合视角)来构建统一的场景表示。LVLM利用这个统一的场景表示来进行推理。

关键创新:论文的关键创新在于提出了E3VQA基准数据集和M3CoT提示方法。E3VQA是第一个专门为多视角问答设计的基准数据集,它为评估LVLM在多视角场景理解方面的能力提供了标准。M3CoT是一种新颖的提示技术,它通过整合来自不同视角的场景图来构建统一的场景表示,从而使LVLM能够更有效地跨视角进行推理。与传统的CoT方法相比,M3CoT不需要额外的训练,并且能够显著提升LVLM的性能。

关键设计:E3VQA数据集包含4K高质量的问答对,这些问答对基于同步的自我-外部图像对。M3CoT提示方法首先使用现有的场景图生成模型分别从自我视角和外部视角生成场景图,然后将这两个场景图融合为一个统一的场景图。在推理阶段,LVLM接收到融合的场景图和问题,并生成答案。论文没有详细说明具体的网络结构或损失函数,因为M3CoT是一种提示技术,可以应用于各种现有的LVLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用M3CoT提示方法后,GPT-4o在E3VQA基准上的性能提升了4.84%,Gemini 2.0 Flash的性能提升了5.94%。这些结果表明,融合第一人称和第三人称视角的信息可以显著提升LVLM的场景理解能力。此外,实验还揭示了LVLM在多视角推理中的优势和局限性,为未来的研究提供了指导。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、机器人导航、智能监控等领域。通过融合第一人称和第三人称视角,可以提升机器人在复杂环境中的感知和理解能力,从而实现更智能的人机交互和自主决策。未来,该方法有望应用于自动驾驶、智能家居等更广泛的场景。

📄 摘要(原文)

Large vision-language models (LVLMs) are increasingly deployed in interactive applications such as virtual and augmented reality, where a first-person (egocentric) view captured by head-mounted cameras serves as key input. While this view offers fine-grained cues about user attention and hand-object interactions, its narrow field of view and lack of global context often lead to failures on spatially or contextually demanding queries. To address this, we introduce a framework that augments egocentric inputs with third-person (exocentric) views, providing complementary information such as global scene layout and object visibility to LVLMs. We present E3VQA, the first benchmark for multi-view question answering with 4K high-quality question-answer pairs grounded in synchronized ego-exo image pairs. Additionally, we propose M3CoT, a training-free prompting technique that constructs a unified scene representation by integrating scene graphs from three complementary perspectives. M3CoT enables LVLMs to reason more effectively across views, yielding consistent performance gains (4.84% for GPT-4o and 5.94% for Gemini 2.0 Flash) over a recent CoT baseline. Our extensive evaluation reveals key strengths and limitations of LVLMs in multi-view reasoning and highlights the value of leveraging both egocentric and exocentric inputs. The dataset and source code are available at https://github.com/Leeinsu1/Towards-Comprehensive-Scene-Understanding.