x-RAGE: eXtended Reality -- Action & Gesture Events Dataset
作者: Vivek Parmar, Dwijay Bane, Syed Shakib Sarwar, Kleber Stangherlin, Barbara De Salvo, Manan Suri
分类: cs.CV, cs.ET
发布日期: 2024-10-25 (更新: 2024-10-28)
🔗 代码/项目: GITLAB
💡 一句话要点
x-RAGE:用于扩展现实中动作与手势事件的首个事件相机数据集
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 事件相机 手势识别 扩展现实 数据集 人机交互
📋 核心要点
- 传统基于帧的视觉方法在XR手势识别中面临数据带宽和快速运动捕捉的挑战。
- 该论文提出使用事件相机,以其高时间分辨率和低功耗特性,作为XR手势识别的替代方案。
- 论文贡献了一个新的数据集x-RAGE,是首个基于事件相机的以自我为中心的手势数据集。
📝 摘要(中文)
近年来,随着元宇宙的兴起和对可穿戴设备的关注,基于手势的人机交互变得越来越重要。为了实现VR/AR头显和眼镜的手势识别,涌现了许多专注于以自我为中心(即第一人称视角)的数据集。然而,标准的基于帧的视觉方法在数据带宽需求以及捕捉快速运动的能力方面存在局限性。为了克服这些限制,诸如事件相机等生物启发方法提供了一种有吸引力的替代方案。在这项工作中,我们提出了第一个基于事件相机的以自我为中心的手势数据集,旨在为以XR为中心的手势识别提供神经形态、低功耗的解决方案。该数据集已在以下URL公开提供:https://gitlab.com/NVM_IITD_Research/xrage。
🔬 方法详解
问题定义:论文旨在解决扩展现实(XR)环境中,基于手势的人机交互所面临的挑战。现有基于帧的视觉方法在处理XR设备(如VR/AR头显)时,由于数据带宽需求高和难以捕捉快速运动,存在明显的局限性。因此,需要一种更高效、更低功耗的解决方案来支持XR环境下的手势识别。
核心思路:论文的核心思路是利用事件相机来获取手势数据。事件相机是一种生物启发式的传感器,它不是以固定帧率捕捉图像,而是异步地记录场景中亮度变化的事件。这种方式可以显著降低数据量,并提供高时间分辨率,从而更有效地捕捉快速运动。
技术框架:该论文主要贡献在于构建了一个名为x-RAGE的数据集。该数据集包含使用事件相机记录的以自我为中心的手势数据,专门用于XR环境下的手势识别研究。数据集的构建流程包括:定义一系列手势动作,使用事件相机记录执行这些动作的数据,并对数据进行标注。
关键创新:该论文的关键创新在于它是第一个基于事件相机的以自我为中心的手势数据集,专门为XR应用设计。与现有的基于帧的视觉数据集相比,x-RAGE数据集更适合于低功耗、高速度的XR手势识别应用。
关键设计:数据集包含了多种手势动作,并提供了详细的标注信息。具体的参数设置和网络结构等技术细节,需要在后续的研究中根据具体的应用场景进行选择和优化。数据集的公开访问链接为后续研究提供了便利。
🖼️ 关键图片
📊 实验亮点
该论文的主要亮点在于构建并公开了首个基于事件相机的以自我为中心的手势数据集x-RAGE。虽然论文本身没有提供具体的性能数据,但该数据集的发布为后续研究提供了宝贵的数据资源,有望推动基于事件相机的XR手势识别算法的进步。
🎯 应用场景
该研究成果可广泛应用于VR/AR等扩展现实领域,实现更自然、更高效的人机交互。例如,用户可以通过手势在虚拟环境中进行导航、操作对象或进行交流。该数据集的发布将促进基于事件相机的低功耗、高性能手势识别算法的研究,推动XR技术的进一步发展。
📄 摘要(原文)
With the emergence of the Metaverse and focus on wearable devices in the recent years gesture based human-computer interaction has gained significance. To enable gesture recognition for VR/AR headsets and glasses several datasets focusing on egocentric i.e. first-person view have emerged in recent years. However, standard frame-based vision suffers from limitations in data bandwidth requirements as well as ability to capture fast motions. To overcome these limitation bio-inspired approaches such as event-based cameras present an attractive alternative. In this work, we present the first event-camera based egocentric gesture dataset for enabling neuromorphic, low-power solutions for XR-centric gesture recognition. The dataset has been made available publicly at the following URL: https://gitlab.com/NVM_IITD_Research/xrage.