EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World

📄 arXiv: 2501.19061v2 📥 PDF

作者: Heqian Qiu, Zhaofeng Shi, Lanxiao Wang, Huiyu Xiong, Xiang Li, Hongliang Li

分类: cs.CV

发布日期: 2025-01-31 (更新: 2025-03-30)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

EgoMe:提出一个用于真实世界中以自我为中心视角进行模仿学习的新数据集与挑战。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 模仿学习 自我中心视角 机器人 数据集 眼动追踪

📋 核心要点

  1. 现有研究主要关注不同相机下自我-外部数据的基本对齐问题,忽略了模仿者视角的数据收集,这与高层次认知过程不符。
  2. EgoMe数据集通过收集模仿者的自我中心视角视频,并配以对应的外部视角视频,旨在模拟人类模仿学习的过程。
  3. 该数据集包含眼动追踪、IMU等多模态数据,并提供不同级别的标注,为研究观察和模仿之间的关联提供了丰富的资源。

📝 摘要(中文)

为了促进机器人更有效地模仿人类行为的研究,我们提出了一个名为EgoMe的大规模自我中心视角数据集,用于研究通过模仿者的自我中心视角在真实世界中进行人类模仿学习的过程。我们的数据集包含7902个配对的外部-自我视频(总计15804个视频),涵盖各种真实场景中的日常行为。对于每个视频对,一个视频捕捉模仿者观察演示者动作的外部视角,另一个视频捕捉模仿者随后模仿这些动作的自我中心视角。值得注意的是,EgoMe独特地结合了外部-自我眼动追踪数据、其他多模态传感器IMU数据以及不同级别的标注,以帮助建立观察和模仿过程之间的相关性。我们进一步提供了一套具有挑战性的基准,以充分利用此数据资源并促进机器人模仿学习研究。广泛的分析表明,该数据集相比现有数据集具有显著优势。EgoMe数据集和基准可在https://huggingface.co/datasets/HeqianQiu/EgoMe 获取。

🔬 方法详解

问题定义:现有机器人模仿学习研究主要依赖于外部视角数据,缺乏模仿者第一人称视角的观察和学习数据。这导致机器人难以像人类一样,自然地将外部视角观察到的行为转化为自身的行动。因此,如何构建一个包含自我中心视角和外部视角对应关系的大规模数据集,以支持机器人模仿学习研究,是一个关键问题。

核心思路:EgoMe数据集的核心思路是模拟人类模仿学习的过程,即模仿者首先通过外部视角观察演示者的行为,然后通过自我中心视角模仿这些行为。通过收集这两种视角下的视频数据,并配以眼动追踪、IMU等多模态数据,可以建立观察和模仿之间的关联,从而帮助机器人更好地理解和学习人类行为。

技术框架:EgoMe数据集的构建流程主要包括以下几个阶段:1) 数据采集:招募志愿者作为模仿者和演示者,在各种真实场景中进行日常行为的演示和模仿。2) 视频录制:使用外部相机和自我中心相机同时录制模仿者观察演示者行为的视频,以及模仿者模仿这些行为的视频。3) 数据标注:对视频数据进行多级别的标注,包括行为类别、动作分割、眼动追踪数据等。4) 数据清洗和整理:对采集到的数据进行清洗和整理,去除噪声数据,并进行格式转换和标准化。

关键创新:EgoMe数据集的关键创新在于:1) 首次构建了一个大规模的包含自我中心视角和外部视角对应关系的模仿学习数据集。2) 提供了丰富的多模态数据,包括眼动追踪、IMU等,可以用于研究观察和模仿之间的关联。3) 提供了不同级别的标注,可以支持各种模仿学习算法的研究。

关键设计:EgoMe数据集的关键设计包括:1) 视频同步:确保外部视角和自我中心视角的视频在时间上同步,以便建立准确的对应关系。2) 场景多样性:在各种真实场景中进行数据采集,以提高数据集的泛化能力。3) 标注质量:采用专业的标注团队进行数据标注,以保证标注的准确性和一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EgoMe数据集包含7902个配对的外部-自我视频,涵盖各种真实场景中的日常行为,规模远大于现有数据集。通过对EgoMe数据集进行分析,研究人员可以更好地理解观察和模仿之间的关联,并开发出更有效的机器人模仿学习算法。论文中提到,广泛的分析表明,该数据集相比现有数据集具有显著优势,但具体性能数据未知。

🎯 应用场景

EgoMe数据集可应用于机器人模仿学习、人机交互、虚拟现实等领域。通过该数据集,可以训练机器人模仿人类的各种行为,例如烹饪、清洁、组装等。此外,该数据集还可以用于研究人类的认知过程,例如观察学习、运动控制等。未来,EgoMe数据集有望推动机器人技术的发展,使机器人能够更好地服务于人类。

📄 摘要(原文)

In human imitation learning, the imitator typically take the egocentric view as a benchmark, naturally transferring behaviors observed from an exocentric view to their owns, which provides inspiration for researching how robots can more effectively imitate human behavior. However, current research primarily focuses on the basic alignment issues of ego-exo data from different cameras, rather than collecting data from the imitator's perspective, which is inconsistent with the high-level cognitive process. To advance this research, we introduce a novel large-scale egocentric dataset, called EgoMe, which towards following the process of human imitation learning via the imitator's egocentric view in the real world. Our dataset includes 7902 paired exo-ego videos (totaling15804 videos) spanning diverse daily behaviors in various real-world scenarios. For each video pair, one video captures an exocentric view of the imitator observing the demonstrator's actions, while the other captures an egocentric view of the imitator subsequently following those actions. Notably, EgoMe uniquely incorporates exo-ego eye gaze, other multi-modal sensor IMU data and different-level annotations for assisting in establishing correlations between observing and imitating process. We further provide a suit of challenging benchmarks for fully leveraging this data resource and promoting the robot imitation learning research. Extensive analysis demonstrates significant advantages over existing datasets. Our EgoMe dataset and benchmarks are available at https://huggingface.co/datasets/HeqianQiu/EgoMe.