BARISTA: A Multi-Task Egocentric Benchmark for Compositional Visual Understanding

📄 arXiv: 2605.12074v1 📥 PDF

作者: Patrick Knab, Orgest Xhelili, Inis Buzi, Drago Andres Guggiana Nilo, Mohd Saquib Khan, Lorenz Kolb, Manuel Scherzer, Kerem Yildirir, Christian Bartelt, Philipp Johannes Schubert

分类: cs.CV

发布日期: 2026-05-12

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

BARISTA:一个用于组合视觉理解的多任务自中心视角基准数据集

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 自中心视角 视频理解 场景图 多任务学习 程序推理 关系提取 手-物交互

📋 核心要点

  1. 现有视频理解基准通常独立评估对象定位、交互识别等能力,难以诊断模型在程序任务上的失败原因。
  2. BARISTA数据集通过密集标注自中心视角咖啡制作视频,构建包含对象、交互、关系和步骤的场景图,从而实现多任务学习。
  3. 实验表明,不同任务族之间性能差异显著,没有单一模型能全面胜任,证明BARISTA是一个具有挑战性的基准。

📝 摘要(中文)

场景理解是通用物理智能的核心,而视频是捕捉场景状态和时间动态的主要方式。然而,理解物理过程仍然很困难,因为模型必须结合对象定位、手-物交互、关系解析、时间推理和步骤级程序推理。现有的基准通常分别评估这些能力,限制了模型在程序任务上失败原因的诊断。我们引入了BARISTA,这是一个密集注释的自中心视角数据集和基准,包含185个真实世界的咖啡制作视频,涵盖全自动、意式咖啡机和胶囊咖啡机工作流程。BARISTA提供经过验证的逐帧场景图,将持久对象身份链接到掩码、轨迹框、属性、类型关系、手-物交互、活动和过程步骤。从这些图中,我们派生出基于零样本语言的任务,涵盖短语定位、手-物交互识别、指代、活动识别、关系提取和时间视觉问答。实验表明,任务族之间存在很大差异,并且没有始终占主导地位的模型族,这使得BARISTA成为程序视频理解的一个具有挑战性的诊断基准。

🔬 方法详解

问题定义:现有视频理解基准数据集通常侧重于单一任务,例如对象识别或动作分类,缺乏对复杂程序性任务的综合评估能力。这使得研究人员难以诊断模型在理解物理过程中的具体瓶颈,例如时间推理或关系解析。因此,需要一个能够同时评估多种能力的综合性基准数据集。

核心思路:BARISTA的核心思路是通过构建一个密集标注的自中心视角视频数据集,涵盖咖啡制作的完整流程,并提供丰富的场景图信息,包括对象、属性、关系、交互和步骤。这种多层次的标注允许研究人员设计各种任务,从而全面评估模型在组合视觉理解方面的能力。

技术框架:BARISTA数据集包含185个真实世界的咖啡制作视频,涵盖三种不同的咖啡制作方式。每个视频都进行了逐帧标注,构建了场景图,其中节点表示对象,边表示对象之间的关系和交互。标注信息包括对象掩码、轨迹框、属性、类型关系、手-物交互、活动和过程步骤。基于这些场景图,作者设计了六种零样本语言任务,包括短语定位、手-物交互识别、指代、活动识别、关系提取和时间视觉问答。

关键创新:BARISTA的关键创新在于其密集的多层次标注和多任务评估框架。与以往的基准数据集相比,BARISTA提供了更丰富的场景信息和更全面的评估指标,能够更准确地诊断模型在理解复杂程序性任务中的不足。此外,BARISTA采用自中心视角,更贴近人类的视角,有助于研究人员开发更具实用性的视觉理解模型。

关键设计:BARISTA数据集的标注过程经过严格的验证,以确保标注的准确性和一致性。作者使用了专业的标注工具,并对标注人员进行了培训。此外,作者还设计了一套评估指标,用于衡量模型在不同任务上的性能。这些指标包括准确率、召回率、F1值等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在BARISTA数据集上,不同任务族之间的性能差异显著,没有单一模型能够全面胜任所有任务。例如,在手-物交互识别任务上表现良好的模型,在时间视觉问答任务上可能表现不佳。这表明BARISTA是一个具有挑战性的基准,能够有效地诊断模型在组合视觉理解方面的不足。

🎯 应用场景

BARISTA数据集和基准可用于训练和评估各种视觉理解模型,例如机器人导航、人机交互和智能助手。通过提高模型对复杂程序性任务的理解能力,可以实现更智能、更自主的机器人系统,从而在家庭服务、工业自动化和医疗保健等领域发挥重要作用。

📄 摘要(原文)

Scene understanding is central to general physical intelligence, and video is a primary modality for capturing both state and temporal dynamics of a scene. Yet understanding physical processes remains difficult, as models must combine object localization, hand-object interactions, relational parsing, temporal reasoning, and step-level procedural inference. Existing benchmarks usually evaluate these capabilities separately, limiting diagnosis of why models fail on procedural tasks. We introduce BARISTA, a densely annotated egocentric dataset and benchmark of 185 real-world coffee-preparation videos covering fully automatic, portafilter-based, and capsule-based workflows. BARISTA provides verified per-frame scene graphs linking persistent object identities to masks, tracks, boxes, attributes, typed relations, hand-object interactions, activities, and process steps. From these graphs, we derive zero-shot language-based tasks spanning phrase grounding, hand-object interaction recognition, referring, activity recognition, relation extraction, and temporal visual question answering. Experiments reveal strong variation across task families and no consistently dominant model family, positioning BARISTA as a challenging diagnostic benchmark for procedural video understanding. Code and dataset available at https://huggingface.co/datasets/ramblr/BARISTA.