BARISTA: A Multi-Task Egocentric Benchmark for Compositional Visual Understanding

作者: Patrick Knab, Orgest Xhelili, Inis Buzi, Drago Andres Guggiana Nilo, Mohd Saquib Khan, Lorenz Kolb, Manuel Scherzer, Kerem Yildirir, Christian Bartelt, Philipp Johannes Schubert

分类: cs.CV

发布日期: 2026-05-12

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

BARISTA：一个用于组合视觉理解的多任务自中心视角基准数据集

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 自中心视角 视频理解 场景图 多任务学习 程序推理 关系提取 手-物交互

📋 核心要点

现有视频理解基准通常独立评估对象定位、交互识别等能力，难以诊断模型在程序任务上的失败原因。
BARISTA数据集通过密集标注自中心视角咖啡制作视频，构建包含对象、交互、关系和步骤的场景图，从而实现多任务学习。
实验表明，不同任务族之间性能差异显著，没有单一模型能全面胜任，证明BARISTA是一个具有挑战性的基准。

📝 摘要（中文）

场景理解是通用物理智能的核心，而视频是捕捉场景状态和时间动态的主要方式。然而，理解物理过程仍然很困难，因为模型必须结合对象定位、手-物交互、关系解析、时间推理和步骤级程序推理。现有的基准通常分别评估这些能力，限制了模型在程序任务上失败原因的诊断。我们引入了BARISTA，这是一个密集注释的自中心视角数据集和基准，包含185个真实世界的咖啡制作视频，涵盖全自动、意式咖啡机和胶囊咖啡机工作流程。BARISTA提供经过验证的逐帧场景图，将持久对象身份链接到掩码、轨迹框、属性、类型关系、手-物交互、活动和过程步骤。从这些图中，我们派生出基于零样本语言的任务，涵盖短语定位、手-物交互识别、指代、活动识别、关系提取和时间视觉问答。实验表明，任务族之间存在很大差异，并且没有始终占主导地位的模型族，这使得BARISTA成为程序视频理解的一个具有挑战性的诊断基准。

🔬 方法详解

问题定义：现有视频理解基准数据集通常侧重于单一任务，例如对象识别或动作分类，缺乏对复杂程序性任务的综合评估能力。这使得研究人员难以诊断模型在理解物理过程中的具体瓶颈，例如时间推理或关系解析。因此，需要一个能够同时评估多种能力的综合性基准数据集。

核心思路：BARISTA的核心思路是通过构建一个密集标注的自中心视角视频数据集，涵盖咖啡制作的完整流程，并提供丰富的场景图信息，包括对象、属性、关系、交互和步骤。这种多层次的标注允许研究人员设计各种任务，从而全面评估模型在组合视觉理解方面的能力。

技术框架：BARISTA数据集包含185个真实世界的咖啡制作视频，涵盖三种不同的咖啡制作方式。每个视频都进行了逐帧标注，构建了场景图，其中节点表示对象，边表示对象之间的关系和交互。标注信息包括对象掩码、轨迹框、属性、类型关系、手-物交互、活动和过程步骤。基于这些场景图，作者设计了六种零样本语言任务，包括短语定位、手-物交互识别、指代、活动识别、关系提取和时间视觉问答。

关键创新：BARISTA的关键创新在于其密集的多层次标注和多任务评估框架。与以往的基准数据集相比，BARISTA提供了更丰富的场景信息和更全面的评估指标，能够更准确地诊断模型在理解复杂程序性任务中的不足。此外，BARISTA采用自中心视角，更贴近人类的视角，有助于研究人员开发更具实用性的视觉理解模型。

关键设计：BARISTA数据集的标注过程经过严格的验证，以确保标注的准确性和一致性。作者使用了专业的标注工具，并对标注人员进行了培训。此外，作者还设计了一套评估指标，用于衡量模型在不同任务上的性能。这些指标包括准确率、召回率、F1值等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在BARISTA数据集上，不同任务族之间的性能差异显著，没有单一模型能够全面胜任所有任务。例如，在手-物交互识别任务上表现良好的模型，在时间视觉问答任务上可能表现不佳。这表明BARISTA是一个具有挑战性的基准，能够有效地诊断模型在组合视觉理解方面的不足。

🎯 应用场景

BARISTA数据集和基准可用于训练和评估各种视觉理解模型，例如机器人导航、人机交互和智能助手。通过提高模型对复杂程序性任务的理解能力，可以实现更智能、更自主的机器人系统，从而在家庭服务、工业自动化和医疗保健等领域发挥重要作用。

📄 摘要（原文）

Scene understanding is central to general physical intelligence, and video is a primary modality for capturing both state and temporal dynamics of a scene. Yet understanding physical processes remains difficult, as models must combine object localization, hand-object interactions, relational parsing, temporal reasoning, and step-level procedural inference. Existing benchmarks usually evaluate these capabilities separately, limiting diagnosis of why models fail on procedural tasks. We introduce BARISTA, a densely annotated egocentric dataset and benchmark of 185 real-world coffee-preparation videos covering fully automatic, portafilter-based, and capsule-based workflows. BARISTA provides verified per-frame scene graphs linking persistent object identities to masks, tracks, boxes, attributes, typed relations, hand-object interactions, activities, and process steps. From these graphs, we derive zero-shot language-based tasks spanning phrase grounding, hand-object interaction recognition, referring, activity recognition, relation extraction, and temporal visual question answering. Experiments reveal strong variation across task families and no consistently dominant model family, positioning BARISTA as a challenging diagnostic benchmark for procedural video understanding. Code and dataset available at https://huggingface.co/datasets/ramblr/BARISTA.

BARISTA: A Multi-Task Egocentric Benchmark for Compositional Visual Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理