HD-EPIC: A Highly-Detailed Egocentric Video Dataset

📄 arXiv: 2502.04144v2 📥 PDF

作者: Toby Perrett, Ahmad Darkhalil, Saptarshi Sinha, Omar Emara, Sam Pollard, Kranti Parida, Kaiting Liu, Prajwal Gatti, Siddhant Bansal, Kevin Flanagan, Jacob Chalk, Zhifan Zhu, Rhodri Guerrier, Fahd Abdelazim, Bin Zhu, Davide Moltisanti, Michael Wray, Hazel Doughty, Dima Damen

分类: cs.CV

发布日期: 2025-02-06 (更新: 2025-03-25)

备注: Accepted at CVPR 2025. Project Webpage and Dataset: http://hd-epic.github.io


💡 一句话要点

HD-EPIC:一个高细节厨房场景第一人称视频数据集,用于评估和提升视觉语言模型。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 第一人称视觉 厨房场景理解 高细节标注 数字孪生 视觉语言模型 视频问答 多模态学习

📋 核心要点

  1. 现有第一人称视频数据集在真实场景下的高细节标注方面存在不足,限制了对复杂厨房活动理解的深入研究。
  2. HD-EPIC通过在真实家庭厨房环境中采集视频,并进行高细节的3D空间标注,弥补了现有数据集的不足。
  3. 实验表明,即使是强大的视觉语言模型在HD-EPIC数据集上表现仍然欠佳,突显了该数据集的挑战性和价值。

📝 摘要(中文)

本文提出了一个全新的厨房场景第一人称视频验证数据集HD-EPIC,该数据集包含大量人工标注的高细节、互联互通的ground-truth标签,涵盖食谱步骤、细粒度动作、包含营养成分的食材、移动物体和音频标注。所有标注都通过场景的数字孪生、固定装置、物体位置以及视线追踪在3D空间中进行定位。视频素材来自真实家庭环境中的非脚本录制,使得HD-EPIC成为首个在真实场景中收集但具有与受控实验室环境相匹配的详细标注的数据集。通过一个具有挑战性的VQA基准测试(包含2.6万个问题),展示了高细节标注的潜力,该基准测试评估了模型识别食谱、食材、营养成分、细粒度动作、3D感知、物体运动和视线方向的能力。强大的长上下文Gemini Pro模型在该基准测试上仅达到38.5%的准确率,表明了该基准测试的难度,并突出了当前视觉语言模型的不足。此外,还在HD-EPIC上评估了动作识别、声音识别和长期视频对象分割。

🔬 方法详解

问题定义:现有第一人称视觉研究缺乏在真实、非脚本化厨房环境中采集并进行高精度标注的数据集。这限制了对复杂厨房活动(如食谱理解、细粒度动作识别、物体交互等)的深入分析和建模。现有数据集要么是在受控实验室环境中采集,要么缺乏足够细粒度的标注,难以反映真实场景的复杂性。

核心思路:HD-EPIC的核心思路是在真实家庭厨房环境中,以第一人称视角记录非脚本化的烹饪过程,并利用数字孪生技术对场景进行3D重建,从而实现高精度、多模态的标注。通过这种方式,可以获得包含食谱步骤、细粒度动作、食材、物体运动、音频事件和视线追踪等信息的丰富数据集。

技术框架:HD-EPIC数据集的构建流程主要包括以下几个阶段:1) 数据采集:在多个不同的家庭厨房环境中,使用第一人称相机记录烹饪过程。2) 场景重建:利用数字孪生技术对每个厨房场景进行3D重建,包括固定装置、物体位置等。3) 数据标注:对视频进行多模态标注,包括食谱步骤、细粒度动作、食材(及其营养成分)、移动物体、音频事件和视线追踪。所有标注都与3D场景进行对齐。4) 基准测试:设计了一系列具有挑战性的VQA任务,用于评估模型在理解厨房活动方面的能力。

关键创新:HD-EPIC的关键创新在于:1) 首次在真实、非脚本化的厨房环境中采集并标注高细节的第一人称视频数据。2) 利用数字孪生技术实现了3D空间中的精确标注,使得标注信息与真实世界场景对齐。3) 提供了多模态的标注信息,包括视觉、听觉和视线追踪等,为多模态融合研究提供了基础。

关键设计:HD-EPIC数据集包含41小时的视频,涵盖9个厨房和69个食谱。标注信息包括59K个细粒度动作、51K个音频事件、20K个物体运动和37K个物体mask。为了评估模型的性能,设计了一个包含26K个问题的VQA基准测试,涵盖食谱识别、食材识别、营养成分识别、细粒度动作识别、3D感知、物体运动和视线方向等多个方面。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是像Gemini Pro这样强大的视觉语言模型,在HD-EPIC数据集上的VQA基准测试中也仅取得了38.5%的准确率。这表明HD-EPIC数据集具有很高的挑战性,能够有效地评估和推动视觉语言模型在理解复杂厨房活动方面的能力。此外,该数据集还被用于评估动作识别、声音识别和长期视频对象分割等任务,并为未来的研究提供了基准。

🎯 应用场景

HD-EPIC数据集可广泛应用于机器人、计算机视觉和人工智能领域。例如,可以用于训练机器人助手,使其能够理解人类的烹饪意图并提供帮助;可以用于开发更智能的厨房设备,使其能够根据用户的需求自动调整参数;还可以用于研究人类的烹饪行为,从而更好地理解人类的认知过程。该数据集的发布将促进相关领域的研究进展。

📄 摘要(原文)

We present a validation dataset of newly-collected kitchen-based egocentric videos, manually annotated with highly detailed and interconnected ground-truth labels covering: recipe steps, fine-grained actions, ingredients with nutritional values, moving objects, and audio annotations. Importantly, all annotations are grounded in 3D through digital twinning of the scene, fixtures, object locations, and primed with gaze. Footage is collected from unscripted recordings in diverse home environments, making HDEPIC the first dataset collected in-the-wild but with detailed annotations matching those in controlled lab environments. We show the potential of our highly-detailed annotations through a challenging VQA benchmark of 26K questions assessing the capability to recognise recipes, ingredients, nutrition, fine-grained actions, 3D perception, object motion, and gaze direction. The powerful long-context Gemini Pro only achieves 38.5% on this benchmark, showcasing its difficulty and highlighting shortcomings in current VLMs. We additionally assess action recognition, sound recognition, and long-term video-object segmentation on HD-EPIC. HD-EPIC is 41 hours of video in 9 kitchens with digital twins of 413 kitchen fixtures, capturing 69 recipes, 59K fine-grained actions, 51K audio events, 20K object movements and 37K object masks lifted to 3D. On average, we have 263 annotations per minute of our unscripted videos.