ChildPlay-Hand: A Dataset of Hand Manipulations in the Wild

📄 arXiv: 2409.09319v1 📥 PDF

作者: Arya Farkhondeh, Samy Tafasca, Jean-Marc Odobez

分类: cs.CV

发布日期: 2024-09-14


💡 一句话要点

提出ChildPlay-Hand数据集,用于研究真实场景下儿童与成人手部操作交互

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 手部-物体交互 HOI数据集 第三人称视角 儿童交互 注视数据 操作识别 行为分析

📋 核心要点

  1. 现有第三人称视角HOI数据集主要面向动作识别,缺乏真实、非受控场景下的手部操作数据。
  2. ChildPlay-Hand数据集提供细粒度的手部操作标注,包含成人与儿童的自然交互,并融合了注视信息。
  3. 通过在OiH和ManiS任务上进行基准测试,验证了数据集的挑战性,为HOI研究提供了新平台。

📝 摘要(中文)

手部-物体交互(HOI)正受到越来越多的关注,尤其是在AR/VR应用驱动下,涌现了大量以自我为中心的视角数据集。然而,第三人称视角的HOI研究相对较少,尤其是在数据集方面。大多数第三人称视角数据集是为动作识别任务而设计的,包含预先分割的高级日常活动片段,缺乏真实场景下的数据集。为了弥补这一空白,我们提出了ChildPlay-Hand,这是一个新的数据集,包含人物和物体的边界框,以及操作动作。ChildPlay-Hand的独特之处在于:(1)提供每个手的标注;(2)包含在不受控制的环境中,成人和儿童之间自然交互的视频;(3)包含来自ChildPlay-Gaze数据集的注视标签,用于联合建模操作和注视。操作动作涵盖了HOI循环的主要阶段,例如抓取、保持或操作,以及不同类型的释放。为了说明该数据集的价值,我们研究了两个任务:手中物体检测(OiH),即一个人手中是否有物体,以及操作阶段(ManiS),这是一个更细粒度的任务,针对操作的主要阶段。我们对各种时空和分割网络进行了基准测试,探索了身体与手部区域的信息,并比较了姿势和RGB模态。我们的研究结果表明,ChildPlay-Hand是一个具有挑战性的新基准,用于建模真实场景下的HOI。

🔬 方法详解

问题定义:论文旨在解决缺乏真实场景下手部-物体交互(HOI)数据集的问题,特别是第三人称视角下,包含儿童和成人自然交互,并具有细粒度手部操作标注的数据集。现有数据集主要集中在自我中心视角或预分割的日常活动片段,无法满足对真实、复杂场景下HOI进行建模的需求。

核心思路:论文的核心思路是构建一个包含真实、非受控场景视频的数据集,该数据集具有以下特点:提供每个手的标注,包含成人和儿童的自然交互,并融合了注视信息。通过提供这些信息,可以更全面地理解手部操作与物体之间的关系,以及人类的注意力机制在HOI中的作用。

技术框架:ChildPlay-Hand数据集的构建流程主要包括以下几个阶段:1) 视频采集:在真实、非受控的环境中录制包含成人和儿童手部操作的视频。2) 数据标注:对视频中的人物和物体进行边界框标注,并对每个手的操作动作进行细粒度标注,包括抓取、保持、操作和释放等阶段。3) 注视数据融合:将来自ChildPlay-Gaze数据集的注视标签与手部操作数据进行融合,以便进行联合建模。

关键创新:该数据集的关键创新在于:1) 提供per-hand标注,即对每个手都进行标注,这在现有的HOI数据集中比较少见。2) 包含在不受控制的环境中,成人和儿童之间自然交互的视频,更贴近真实场景。3) 融合了注视标签,可以用于研究人类的注意力机制在HOI中的作用。

关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节,因为该论文主要关注数据集的构建和基准测试。在实验部分,作者使用了各种时空和分割网络,并探索了身体与手部区域的信息,以及比较了姿势和RGB模态,但没有提供具体的网络结构和参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在ChildPlay-Hand数据集上进行基准测试,验证了数据集的挑战性。作者在两个任务上进行了实验:手中物体检测(OiH)和操作阶段识别(ManiS)。实验结果表明,现有的时空和分割网络在ChildPlay-Hand数据集上的性能还有很大的提升空间,这表明该数据集可以作为HOI研究的一个新的挑战性基准。

🎯 应用场景

ChildPlay-Hand数据集可广泛应用于机器人操作、人机交互、行为分析等领域。例如,可以训练机器人模仿人类的手部操作,提高机器人的灵活性和适应性。在人机交互方面,可以用于理解用户的意图,从而提供更自然、更智能的交互方式。此外,该数据集还可以用于研究儿童的认知发展和行为模式。

📄 摘要(原文)

Hand-Object Interaction (HOI) is gaining significant attention, particularly with the creation of numerous egocentric datasets driven by AR/VR applications. However, third-person view HOI has received less attention, especially in terms of datasets. Most third-person view datasets are curated for action recognition tasks and feature pre-segmented clips of high-level daily activities, leaving a gap for in-the-wild datasets. To address this gap, we propose ChildPlay-Hand, a novel dataset that includes person and object bounding boxes, as well as manipulation actions. ChildPlay-Hand is unique in: (1) providing per-hand annotations; (2) featuring videos in uncontrolled settings with natural interactions, involving both adults and children; (3) including gaze labels from the ChildPlay-Gaze dataset for joint modeling of manipulations and gaze. The manipulation actions cover the main stages of an HOI cycle, such as grasping, holding or operating, and different types of releasing. To illustrate the interest of the dataset, we study two tasks: object in hand detection (OiH), i.e. if a person has an object in their hand, and manipulation stages (ManiS), which is more fine-grained and targets the main stages of manipulation. We benchmark various spatio-temporal and segmentation networks, exploring body vs. hand-region information and comparing pose and RGB modalities. Our findings suggest that ChildPlay-Hand is a challenging new benchmark for modeling HOI in the wild.