IndEgo: A Dataset of Industrial Scenarios and Collaborative Work for Egocentric Assistants
作者: Vivek Chavan, Yasmina Imgrund, Tung Dao, Sanwantri Bai, Bosong Wang, Ze Lu, Oliver Heimann, Jörg Krüger
分类: cs.CV, cs.AI, cs.HC, cs.RO
发布日期: 2025-11-24
备注: Accepted to NeurIPS 2025 D&B Track. Project Page: https://indego-dataset.github.io/
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
IndEgo:用于第一人称视角工业助手协作任务的多模态数据集
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 工业场景 协作任务 第一人称视角 多模态数据集 错误检测 智能助手 人机协作
📋 核心要点
- 现有工业场景数据集缺乏对协作任务的关注,限制了智能助手在复杂协同环境中的应用。
- IndEgo数据集通过提供多模态第一人称和第三人称视角数据,以及详细的协作任务标注,弥补了这一差距。
- 基准测试表明,现有模型在IndEgo数据集上表现不佳,突显了该数据集对多模态协作任务理解的挑战性。
📝 摘要(中文)
本文介绍IndEgo,一个多模态的第一人称和第三人称视角数据集,旨在解决常见的工业任务,包括组装/拆卸、物流和组织、检查和维修、木工等。该数据集包含3460个第一人称视角记录(约197小时)以及1092个第三人称视角记录(约97小时)。数据集的一个关键重点是协作工作,其中两名工人共同执行认知和体力密集型任务。第一人称视角记录包括丰富的多模态数据,并通过眼动追踪、叙述、声音、运动等方式添加了上下文。我们提供详细的注释(动作、摘要、错误注释、叙述)、元数据、处理后的输出(眼动追踪、手部姿势、半稠密点云),以及关于程序性和非程序性任务理解、错误检测和基于推理的问答的基准。错误检测、问答和协作任务理解的基线评估表明,该数据集对最先进的多模态模型提出了挑战。我们的数据集可在https://huggingface.co/datasets/FraunhoferIPK/IndEgo 获取。
🔬 方法详解
问题定义:现有工业场景数据集通常缺乏对协作任务的细致刻画,难以支持开发能够理解和辅助人类协同工作的智能助手。现有的数据集在多模态信息的融合、错误检测以及基于推理的问答等方面存在不足,限制了模型在实际工业场景中的应用潜力。
核心思路:IndEgo数据集的核心思路是通过提供大规模、多模态的工业场景数据,特别是关注协作任务,来促进智能助手在工业领域的应用。通过同时提供第一人称和第三人称视角,以及丰富的标注信息,数据集旨在捕捉工人之间的交互和任务执行过程中的细节。
技术框架:IndEgo数据集的构建包括数据采集、标注和基准测试三个主要阶段。数据采集阶段使用第一人称和第三人称视角记录工业任务,涵盖组装、物流、检查等多种场景。标注阶段提供动作、摘要、错误、叙述等详细信息。基准测试阶段则针对程序性和非程序性任务理解、错误检测和问答等任务,评估现有模型的性能。
关键创新:IndEgo数据集的关键创新在于其对协作任务的关注,以及提供多模态的第一人称和第三人称视角数据。此外,数据集还提供了详细的错误标注,这对于开发能够检测和纠正工人错误的智能助手至关重要。
关键设计:数据集包含3460个第一人称视角记录和1092个第三人称视角记录,总时长超过290小时。多模态数据包括视频、音频、眼动追踪、手部姿势和半稠密点云。标注信息包括动作、摘要、错误、叙述等。基准测试使用标准的多模态模型,并针对特定任务设计了评估指标。
📊 实验亮点
IndEgo数据集的基准测试表明,现有模型在错误检测、问答和协作任务理解方面表现不佳,突显了该数据集的挑战性。例如,在错误检测任务中,现有模型的性能远低于人类水平。这些结果表明,IndEgo数据集可以作为评估和改进多模态模型在复杂工业场景中性能的重要平台。
🎯 应用场景
IndEgo数据集可用于开发智能工业助手,辅助工人完成组装、维修、检查等任务。通过理解工人的动作、意图和错误,智能助手可以提供实时的指导和反馈,提高工作效率和质量。该数据集还有助于研究人机协作、多模态融合和基于推理的问答等问题,推动工业自动化和智能化发展。
📄 摘要(原文)
We introduce IndEgo, a multimodal egocentric and exocentric dataset addressing common industrial tasks, including assembly/disassembly, logistics and organisation, inspection and repair, woodworking, and others. The dataset contains 3,460 egocentric recordings (approximately 197 hours), along with 1,092 exocentric recordings (approximately 97 hours). A key focus of the dataset is collaborative work, where two workers jointly perform cognitively and physically intensive tasks. The egocentric recordings include rich multimodal data and added context via eye gaze, narration, sound, motion, and others. We provide detailed annotations (actions, summaries, mistake annotations, narrations), metadata, processed outputs (eye gaze, hand pose, semi-dense point cloud), and benchmarks on procedural and non-procedural task understanding, Mistake Detection, and reasoning-based Question Answering. Baseline evaluations for Mistake Detection, Question Answering and collaborative task understanding show that the dataset presents a challenge for the state-of-the-art multimodal models. Our dataset is available at: https://huggingface.co/datasets/FraunhoferIPK/IndEgo