Minerva-Ego: Spatiotemporal Hints for Egocentric Video Understanding
作者: Arsha Nagrani, Jasper Uijilings, Shyamal Buch, Tobias Weyand, Sudheendra Vijayanarasimhan, Bo Hu, Ramin Mehran, David A Ross, Cordelia Schmid
分类: cs.CV, cs.LG
发布日期: 2026-05-14
🔗 代码/项目: GITHUB
💡 一句话要点
Minerva-Ego:利用时空提示增强第一视角视频理解
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 第一视角视频理解 时空推理 多模态学习 具身智能 视觉推理
📋 核心要点
- 现有第一视角视频理解模型缺乏对中间推理过程的评估,且答案形式单一,限制了模型能力的全面评估。
- Minerva-Ego基准通过引入多步骤多模态问题和时空推理轨迹标注,提供更细粒度的评估和更丰富的交互形式。
- 实验表明,为模型提供时空提示,即告知模型关注的“地点”和“时间”,能够显著提升模型性能,缩小与人类表现的差距。
📝 摘要(中文)
视频推理模型是第一视角和具身智能体的核心组成部分。然而,评估模型的标准基准通常只评估输出结果(例如,问题的答案),而忽略了中间推理步骤的评估,并且大多数只提供文本领域的答案。我们引入了Minerva-Ego,这是一个用于评估复杂第一视角视觉推理的基准。我们扩展了最近高质量的第一视角/具身环境视频数据,并添加了一系列具有挑战性的、多步骤的多模态问题以及时空密集的人工标注推理轨迹。基准实验表明,当前最先进的模型与人类性能之间仍存在很大差距。为了详细研究这一差距,我们使用时空掩码标注,在数据集中标注了解决问题所需的感兴趣对象。通过广泛的评估,我们发现,使用“在哪里”和“何时”查看的提示可以显著提高前沿模型的性能。Minerva-Ego可在https://github.com/google-deepmind/neptune下载。
🔬 方法详解
问题定义:现有第一视角视频理解模型的评估主要集中在最终输出的准确性上,忽略了模型内部的推理过程。此外,现有数据集提供的答案形式通常仅限于文本,限制了模型在更复杂场景下的应用。因此,需要一个能够评估模型推理过程,并支持多模态交互的基准。
核心思路:论文的核心思路是通过引入时空提示,引导模型关注视频中与问题相关的特定区域和时间段,从而提高模型的推理能力。这种方法模拟了人类在解决问题时,会根据线索逐步缩小搜索范围的过程。
技术框架:Minerva-Ego基准包含以下几个关键组成部分:1) 扩展的视频数据集,包含第一视角/具身环境记录;2) 多步骤、多模态问题,需要模型进行复杂的视觉推理;3) 人工标注的时空推理轨迹,记录了解决问题所需的关键对象和时间段;4) 基于时空提示的评估方法,通过向模型提供时空掩码,引导模型关注相关区域。
关键创新:该论文的关键创新在于引入了时空提示的概念,并将其应用于第一视角视频理解。与传统的端到端模型相比,该方法能够更好地利用视频中的时空信息,提高模型的推理准确性和效率。此外,Minerva-Ego基准的构建本身也是一个重要的贡献,为研究人员提供了一个更具挑战性和实用性的评估平台。
关键设计:时空提示的具体实现方式是使用人工标注的时空掩码,这些掩码标记了视频中与问题相关的对象和时间段。在训练或推理过程中,这些掩码可以作为额外的输入提供给模型,引导模型关注相关区域。论文中可能还涉及了特定的损失函数设计,以鼓励模型更好地利用时空提示信息,但具体细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Minerva-Ego基准上,通过引入时空提示,当前最先进的模型性能得到了显著提升。具体提升幅度未知,但论文强调了时空提示在缩小模型与人类性能差距方面的关键作用。该结果验证了时空信息在第一视角视频理解中的重要性。
🎯 应用场景
该研究成果可应用于机器人导航、智能助手、虚拟现实等领域。例如,在机器人导航中,时空提示可以帮助机器人快速定位目标物体,提高导航效率。在智能助手中,可以帮助理解用户的意图,提供更准确的帮助。在虚拟现实中,可以增强用户的沉浸感和交互体验。
📄 摘要(原文)
Video reasoning models are a core component of egocentric and embodied agents. However, standard benchmarks for assessing models provide only evaluation of the output (e.g. the answer to a question), without evaluation of intermediate reasoning steps, and most provide answers only in the text domain. We introduce Minerva-Ego, a benchmark for evaluating complex egocentric visual reasoning. We extend recent high-quality video data sources recorded from egocentric / embodied settings with a set of challenging, multi-step multimodal questions and spatiotemporally-dense human-annotated reasoning traces. Benchmarking experiments show that state-of-the-art models still have a large gap to human performance. To investigate this gap in detail, we annotate each reasoning trace in the dataset with the objects of interest required to solve the question, as spatiotemporal mask annotations. Through extensive evaluations, we identify that prompting frontier models with hints of 'where' and 'when' to look yields substantial improvements in performance. Minerva-Ego can be downloaded at https://github.com/google-deepmind/neptune.