ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios
作者: Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella
分类: cs.CV
发布日期: 2026-03-10
💡 一句话要点
ENIGMA-360:提出一个工业场景下用于人类行为理解的自中心-他中心视角数据集。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 工业场景 人类行为理解 自中心视角 他中心视角 数据集 动作分割 人机交互
📋 核心要点
- 现有方法缺乏在真实工业场景中同时捕捉自中心和他中心视角的公开数据集,阻碍了相关研究的进展。
- ENIGMA-360数据集通过同步的自中心和他中心360度视频,提供互补的场景信息,促进工业场景下人类行为理解。
- 基线实验表明,现有方法在ENIGMA-360数据集上表现不佳,突显了开发更鲁棒的自中心-他中心理解模型的需求。
📝 摘要(中文)
为了促进工业环境中辅助工人并提高其安全性的系统开发,本研究提出了ENIGMA-360,这是一个在真实工业场景中采集的自中心(ego)-他中心(exo)视角数据集。该数据集包含180个自中心和180个他中心视角的程序性视频,这些视频在时间上同步,为同一场景提供互补信息。这些360度视频带有时间性和空间性标注,可以用于研究工业领域中人类行为的各个方面。我们为三项人类行为理解的基础任务提供了基线实验:1) 时间动作分割,2) 关键步骤识别,3) 自中心视角下的人-物交互检测。实验结果表明,现有方法在这个具有挑战性的场景中存在局限性。这些结果突出了对能够在真实环境中进行鲁棒的自中心-他中心理解的新模型的需求。数据集及其标注已公开发布。
🔬 方法详解
问题定义:论文旨在解决工业场景下缺乏同步自中心和他中心视角数据集的问题,现有方法难以充分利用多视角信息进行人类行为理解,尤其是在复杂和真实的工业环境中。现有数据集通常只关注单一视角,或者规模较小,难以训练出鲁棒的模型。
核心思路:论文的核心思路是通过构建一个大规模的、同步的自中心和他中心视角数据集,为研究人员提供一个平台,以开发和评估能够有效融合多视角信息的模型。通过提供丰富的标注信息,鼓励研究人员探索不同的任务,例如时间动作分割、关键步骤识别和人-物交互检测。
技术框架:ENIGMA-360数据集的构建流程包括:1) 在真实的工业环境中录制视频,同时捕捉自中心和他中心视角;2) 对视频进行时间同步,确保两个视角的信息对应;3) 对视频进行标注,包括时间动作分割、关键步骤识别和人-物交互检测等。数据集包含180个自中心和180个他中心视角的360度视频。
关键创新:该数据集的关键创新在于其同步的自中心和他中心视角,以及在真实工业环境中的采集。这使得研究人员能够探索如何利用多视角信息来提高人类行为理解的准确性和鲁棒性。此外,数据集还提供了丰富的标注信息,涵盖了多个任务,为研究人员提供了更多的选择。
关键设计:数据集的标注包括时间动作分割、关键步骤识别和人-物交互检测。时间动作分割将视频分割成不同的动作片段,并为每个片段分配一个标签。关键步骤识别旨在识别视频中的关键步骤,这些步骤对于完成任务至关重要。人-物交互检测旨在检测视频中人与物体之间的交互,例如抓取、放置等。数据集的规模为180个自中心和180个他中心视角的360度视频。
🖼️ 关键图片
📊 实验亮点
论文在ENIGMA-360数据集上进行了三项基线实验,包括时间动作分割、关键步骤识别和自中心视角下的人-物交互检测。实验结果表明,现有方法在这些任务上表现不佳,突显了数据集的挑战性。例如,在时间动作分割任务中,现有方法的准确率较低,表明需要开发更鲁棒的模型来处理复杂的工业场景。这些结果为未来的研究方向提供了重要的参考。
🎯 应用场景
ENIGMA-360数据集可应用于开发智能工业辅助系统,例如,通过理解工人的行为,系统可以提供实时的指导和安全警报,从而提高工作效率和安全性。此外,该数据集还可以用于培训机器人,使其能够更好地与人类协同工作。未来,该数据集有望推动工业自动化和人机协作领域的发展。
📄 摘要(原文)
Understanding human behavior from complementary egocentric (ego) and exocentric (exo) points of view enables the development of systems that can support workers in industrial environments and enhance their safety. However, progress in this area is hindered by the lack of datasets capturing both views in realistic industrial scenarios. To address this gap, we propose ENIGMA-360, a new ego-exo dataset acquired in a real industrial scenario. The dataset is composed of 180 egocentric and 180 exocentric procedural videos temporally synchronized offering complementary information of the same scene. The 360 videos have been labeled with temporal and spatial annotations, enabling the study of different aspects of human behavior in industrial domain. We provide baseline experiments for 3 foundational tasks for human behavior understanding: 1) Temporal Action Segmentation, 2) Keystep Recognition and 3) Egocentric Human-Object Interaction Detection, showing the limits of state-of-the-art approaches on this challenging scenario. These results highlight the need for new models capable of robust ego-exo understanding in real-world environments. We publicly release the dataset and its annotations at https://iplab.dmi.unict.it/ENIGMA-360.