Out of Sight, Not Out of Context? Egocentric Spatial Reasoning in VLMs Across Disjoint Frames

作者: Sahithya Ravi, Gabriel Sarch, Vibhav Vineet, Andrew D. Wilson, Balasaravanan Thoravi Kumaravel

分类: cs.CV

发布日期: 2025-05-30

💡 一句话要点

提出Disjoint-3DQA基准，评估VLMs在分离视角下进行自中心空间推理的能力。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自中心视频 空间推理 视觉语言模型 具身AI 问答基准

📋 核心要点

现有VLMs在自中心视频中缺乏跨帧空间推理能力，无法有效关联不同时刻观察到的物体。
提出Disjoint-3DQA基准，通过问答形式评估VLMs在不连续视角下的空间推理能力。
实验表明，现有VLMs在Disjoint-3DQA上表现不佳，尤其是在时间间隔增大时，性能显著下降。

📝 摘要（中文）

本文提出Disjoint-3DQA，一个生成式问答基准，用于评估VLMs在自中心视频中整合跨时序空间线索的能力。该基准通过提问关于不同帧中不可见物体对的问题来评估模型性能。实验评估了七个最先进的VLMs，发现模型性能比人类低28%，并且随着时间间隔的增大，准确率显著下降（从60%降至30%）。分析表明，向VLMs提供轨迹或鸟瞰图投影仅带来边际改进，而提供真实3D坐标则显著提升20%的性能。这突显了多帧VLMs在从视觉信号构建和维护随时间变化的3D场景表示方面的核心瓶颈。Disjoint-3DQA为长时程空间推理设定了一个清晰、可衡量的挑战，旨在促进视觉、语言和具身AI交叉领域的未来研究。

🔬 方法详解

问题定义：论文旨在解决具身AI助手在自中心视频中进行空间推理的问题，具体而言，是当两个物体不在同一帧中出现时，VLMs如何推断它们之间的空间关系。现有方法难以有效地整合跨帧的空间信息，导致推理性能下降。

核心思路：论文的核心思路是通过构建一个专门的基准测试，即Disjoint-3DQA，来系统地评估VLMs在处理这种跨帧空间推理任务时的能力。该基准侧重于评估模型是否能够基于不同时间点观察到的物体，推断它们之间的相对位置关系。

技术框架：Disjoint-3DQA基准主要包含以下几个阶段：1) 数据生成：利用3D场景数据生成自中心视频序列，并标注物体的位置信息。2) 问题生成：根据场景中的物体关系，自动生成关于不同帧中物体对的空间关系问题。3) 模型评估：将生成的视频和问题输入到VLMs中，评估模型的回答准确率。4) 性能分析：分析模型在不同时间间隔下的性能表现，以及不同辅助信息（如轨迹、鸟瞰图、3D坐标）对模型性能的影响。

关键创新：该论文的关键创新在于提出了Disjoint-3DQA基准，这是一个专门用于评估VLMs在跨帧空间推理能力的新型测试平台。与现有基准相比，Disjoint-3DQA更加关注模型在处理非共视物体对时的推理能力，更贴近实际应用场景的需求。

关键设计：Disjoint-3DQA基准的关键设计包括：1) 问题类型：问题主要涉及物体之间的相对位置关系，如“物体A在物体B的左边吗？”。2) 时间间隔：问题中涉及的物体对出现的时间间隔可变，用于评估模型在不同时间跨度下的推理能力。3) 辅助信息：实验中提供了不同的辅助信息，如物体轨迹、鸟瞰图、3D坐标，用于分析这些信息对模型性能的影响。4) 评估指标：主要使用回答准确率作为评估指标，用于衡量模型的推理性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有VLMs在Disjoint-3DQA基准上的表现远低于人类水平（差距28%），并且随着时间间隔的增大，准确率显著下降（从60%降至30%）。提供轨迹或鸟瞰图投影仅带来边际改进，而提供真实3D坐标则显著提升20%的性能，表明模型在构建和维护3D场景表示方面存在瓶颈。

🎯 应用场景

该研究成果可应用于开发更智能的具身AI助手，例如，帮助机器人理解周围环境，并在不同时间点记住物体的位置，从而更好地完成导航、物体搜索等任务。此外，该研究也有助于提升VLMs在增强现实、虚拟现实等领域的应用效果，例如，让用户在虚拟环境中更自然地与物体进行交互。

📄 摘要（原文）

An embodied AI assistant operating on egocentric video must integrate spatial cues across time - for instance, determining where an object A, glimpsed a few moments ago lies relative to an object B encountered later. We introduce Disjoint-3DQA , a generative QA benchmark that evaluates this ability of VLMs by posing questions about object pairs that are not co-visible in the same frame. We evaluated seven state-of-the-art VLMs and found that models lag behind human performance by 28%, with steeper declines in accuracy (60% to 30 %) as the temporal gap widens. Our analysis further reveals that providing trajectories or bird's-eye-view projections to VLMs results in only marginal improvements, whereas providing oracle 3D coordinates leads to a substantial 20% performance increase. This highlights a core bottleneck of multi-frame VLMs in constructing and maintaining 3D scene representations over time from visual signals. Disjoint-3DQA therefore sets a clear, measurable challenge for long-horizon spatial reasoning and aims to catalyze future research at the intersection of vision, language, and embodied AI.

Out of Sight, Not Out of Context? Egocentric Spatial Reasoning in VLMs Across Disjoint Frames

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理