Learning Situated Awareness in the Real World
作者: Chuhan Li, Ruilin Han, Joy Hsu, Yongyuan Liang, Rajiv Dhawan, Jiajun Wu, Ming-Hsuan Yang, Xin Eric Wang
分类: cs.CV
发布日期: 2026-02-18
💡 一句话要点
提出SAW-Bench:用于评估多模态模型在真实世界中情境感知能力的新基准
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情境感知 多模态学习 第一视角视频 真实世界数据 基准测试 空间推理 机器人视觉
📋 核心要点
- 现有的多模态基础模型评测侧重于环境中心的空间关系,忽略了以观察者为中心的关系推理,无法有效评估情境感知能力。
- 论文提出了SAW-Bench,一个基于真实世界第一视角视频的基准,包含多种情境感知任务,旨在评估模型对自身与环境关系的理解。
- 实验表明,即使是最先进的多模态模型在SAW-Bench上也存在显著的人机差距,并揭示了模型在空间推理方面的不足。
📝 摘要(中文)
本文提出了SAW-Bench(真实世界中的情境感知),这是一个新的基准,用于评估以自我为中心的视角下,多模态基础模型(MFMs)在真实世界视频中的情境感知能力。SAW-Bench包含786个使用Ray-Ban Meta(Gen 2)智能眼镜在各种室内和室外环境中自行录制的视频,以及超过2071个人工标注的问答对。它通过六个不同的感知任务来探测模型以观察者为中心理解能力。综合评估表明,即使是性能最佳的MFM,Gemini 3 Flash,也存在37.66%的人机性能差距。深入分析揭示了一些显著的发现;例如,虽然模型可以利用以自我为中心的视频中的部分几何线索,但它们常常无法推断出连贯的相机几何结构,从而导致系统的空间推理错误。SAW-Bench定位为情境空间智能的基准,从被动观察转向理解物理基础的、以观察者为中心的动态。
🔬 方法详解
问题定义:现有的大多数多模态基础模型(MFMs)的评测基准主要关注环境中心的空间关系,即场景中物体之间的关系。然而,人类感知的一个核心方面是情境感知,即能够将自身与周围的物理环境联系起来,并根据上下文推理可能的行为。因此,现有基准缺乏对以观察者为中心的关系的评估,这些关系需要根据智能体的视角、姿势和运动进行推理。
核心思路:为了弥补这一差距,论文提出了SAW-Bench,一个专门用于评估以自我为中心的情境感知能力的基准。SAW-Bench使用真实世界的第一视角视频,并设计了一系列任务来测试模型对自身与环境之间关系的理解。通过这种方式,SAW-Bench旨在推动多模态模型在理解物理世界和进行情境化推理方面的进展。
技术框架:SAW-Bench包含以下几个关键组成部分:1) 数据集:包含786个使用Ray-Ban Meta(Gen 2)智能眼镜录制的真实世界第一视角视频,涵盖各种室内和室外环境。2) 标注:超过2071个人工标注的问答对,用于评估模型在不同情境感知任务上的表现。3) 任务:六个不同的情境感知任务,旨在探测模型以观察者为中心的理解能力,例如,预测智能体的下一步动作,理解物体之间的相对位置关系等。4) 评估指标:用于量化模型在各个任务上的表现,并与人类表现进行比较。
关键创新:SAW-Bench的关键创新在于其以观察者为中心的视角和对真实世界数据的利用。与传统的环境中心基准不同,SAW-Bench专注于评估模型对自身与环境之间关系的理解,这更贴近人类的感知方式。此外,SAW-Bench使用真实世界的第一视角视频,这使得评估更具挑战性,但也更具实际意义。
关键设计:SAW-Bench的数据集是通过使用Ray-Ban Meta(Gen 2)智能眼镜录制真实世界视频获得的。这些视频涵盖了各种不同的场景和活动,例如,在厨房做饭、在公园散步、在办公室工作等。为了确保数据的质量,所有视频都经过了人工审核。标注过程采用了问答对的形式,问题旨在探测模型对视频中情境的理解,答案则提供了正确的解释。六个情境感知任务的设计灵感来源于人类的日常活动,旨在评估模型在不同方面的能力。
📊 实验亮点
实验结果表明,即使是性能最佳的多模态基础模型Gemini 3 Flash,在SAW-Bench上也存在37.66%的人机性能差距。进一步分析发现,模型在利用几何线索方面存在局限性,无法准确推断相机几何结构,导致空间推理错误。这些结果表明,当前的多模态模型在情境感知方面仍有很大的提升空间。
🎯 应用场景
SAW-Bench的研究成果可应用于机器人导航、增强现实、智能助手等领域。例如,机器人可以利用情境感知能力更好地理解周围环境,从而更安全有效地完成任务。增强现实应用可以根据用户所处的情境提供更个性化的信息和服务。智能助手可以更好地理解用户的意图,从而提供更准确的帮助。
📄 摘要(原文)
A core aspect of human perception is situated awareness, the ability to relate ourselves to the surrounding physical environment and reason over possible actions in context. However, most existing benchmarks for multimodal foundation models (MFMs) emphasize environment-centric spatial relations (relations among objects in a scene), while largely overlooking observer-centric relationships that require reasoning relative to agent's viewpoint, pose, and motion. To bridge this gap, we introduce SAW-Bench (Situated Awareness in the Real World), a novel benchmark for evaluating egocentric situated awareness using real-world videos. SAW-Bench comprises 786 self-recorded videos captured with Ray-Ban Meta (Gen 2) smart glasses spanning diverse indoor and outdoor environments, and over 2,071 human-annotated question-answer pairs. It probes a model's observer-centric understanding with six different awareness tasks. Our comprehensive evaluation reveals a human-model performance gap of 37.66%, even with the best-performing MFM, Gemini 3 Flash. Beyond this gap, our in-depth analysis uncovers several notable findings; for example, while models can exploit partial geometric cues in egocentric videos, they often fail to infer a coherent camera geometry, leading to systematic spatial reasoning errors. We position SAW-Bench as a benchmark for situated spatial intelligence, moving beyond passive observation to understanding physically grounded, observer-centric dynamics.