Out of Sight, Not Out of Context? Egocentric Spatial Reasoning in VLMs Across Disjoint Frames
作者: Sahithya Ravi, Gabriel Sarch, Vibhav Vineet, Andrew D. Wilson, Balasaravanan Thoravi Kumaravel
分类: cs.CV
发布日期: 2025-05-30
💡 一句话要点
提出Disjoint-3DQA基准,评估VLMs在分离视角下进行自中心空间推理的能力。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自中心视频 空间推理 视觉语言模型 具身AI 问答基准
📋 核心要点
- 现有VLMs在自中心视频中缺乏跨帧空间推理能力,无法有效关联不同时刻观察到的物体。
- 提出Disjoint-3DQA基准,通过问答形式评估VLMs在不连续视角下的空间推理能力。
- 实验表明,现有VLMs在Disjoint-3DQA上表现不佳,尤其是在时间间隔增大时,性能显著下降。
📝 摘要(中文)
本文提出Disjoint-3DQA,一个生成式问答基准,用于评估VLMs在自中心视频中整合跨时序空间线索的能力。该基准通过提问关于不同帧中不可见物体对的问题来评估模型性能。实验评估了七个最先进的VLMs,发现模型性能比人类低28%,并且随着时间间隔的增大,准确率显著下降(从60%降至30%)。分析表明,向VLMs提供轨迹或鸟瞰图投影仅带来边际改进,而提供真实3D坐标则显著提升20%的性能。这突显了多帧VLMs在从视觉信号构建和维护随时间变化的3D场景表示方面的核心瓶颈。Disjoint-3DQA为长时程空间推理设定了一个清晰、可衡量的挑战,旨在促进视觉、语言和具身AI交叉领域的未来研究。
🔬 方法详解
问题定义:论文旨在解决具身AI助手在自中心视频中进行空间推理的问题,具体而言,是当两个物体不在同一帧中出现时,VLMs如何推断它们之间的空间关系。现有方法难以有效地整合跨帧的空间信息,导致推理性能下降。
核心思路:论文的核心思路是通过构建一个专门的基准测试,即Disjoint-3DQA,来系统地评估VLMs在处理这种跨帧空间推理任务时的能力。该基准侧重于评估模型是否能够基于不同时间点观察到的物体,推断它们之间的相对位置关系。
技术框架:Disjoint-3DQA基准主要包含以下几个阶段:1) 数据生成:利用3D场景数据生成自中心视频序列,并标注物体的位置信息。2) 问题生成:根据场景中的物体关系,自动生成关于不同帧中物体对的空间关系问题。3) 模型评估:将生成的视频和问题输入到VLMs中,评估模型的回答准确率。4) 性能分析:分析模型在不同时间间隔下的性能表现,以及不同辅助信息(如轨迹、鸟瞰图、3D坐标)对模型性能的影响。
关键创新:该论文的关键创新在于提出了Disjoint-3DQA基准,这是一个专门用于评估VLMs在跨帧空间推理能力的新型测试平台。与现有基准相比,Disjoint-3DQA更加关注模型在处理非共视物体对时的推理能力,更贴近实际应用场景的需求。
关键设计:Disjoint-3DQA基准的关键设计包括:1) 问题类型:问题主要涉及物体之间的相对位置关系,如“物体A在物体B的左边吗?”。2) 时间间隔:问题中涉及的物体对出现的时间间隔可变,用于评估模型在不同时间跨度下的推理能力。3) 辅助信息:实验中提供了不同的辅助信息,如物体轨迹、鸟瞰图、3D坐标,用于分析这些信息对模型性能的影响。4) 评估指标:主要使用回答准确率作为评估指标,用于衡量模型的推理性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有VLMs在Disjoint-3DQA基准上的表现远低于人类水平(差距28%),并且随着时间间隔的增大,准确率显著下降(从60%降至30%)。提供轨迹或鸟瞰图投影仅带来边际改进,而提供真实3D坐标则显著提升20%的性能,表明模型在构建和维护3D场景表示方面存在瓶颈。
🎯 应用场景
该研究成果可应用于开发更智能的具身AI助手,例如,帮助机器人理解周围环境,并在不同时间点记住物体的位置,从而更好地完成导航、物体搜索等任务。此外,该研究也有助于提升VLMs在增强现实、虚拟现实等领域的应用效果,例如,让用户在虚拟环境中更自然地与物体进行交互。
📄 摘要(原文)
An embodied AI assistant operating on egocentric video must integrate spatial cues across time - for instance, determining where an object A, glimpsed a few moments ago lies relative to an object B encountered later. We introduce Disjoint-3DQA , a generative QA benchmark that evaluates this ability of VLMs by posing questions about object pairs that are not co-visible in the same frame. We evaluated seven state-of-the-art VLMs and found that models lag behind human performance by 28%, with steeper declines in accuracy (60% to 30 %) as the temporal gap widens. Our analysis further reveals that providing trajectories or bird's-eye-view projections to VLMs results in only marginal improvements, whereas providing oracle 3D coordinates leads to a substantial 20% performance increase. This highlights a core bottleneck of multi-frame VLMs in constructing and maintaining 3D scene representations over time from visual signals. Disjoint-3DQA therefore sets a clear, measurable challenge for long-horizon spatial reasoning and aims to catalyze future research at the intersection of vision, language, and embodied AI.