EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera
作者: Luming Wang, Hao Shi, Xiaoting Yin, Kailun Yang, Kaiwei Wang, Jian Bai
分类: cs.CV, cs.RO, eess.IV, physics.optics
发布日期: 2025-03-16 (更新: 2025-07-19)
备注: Accepted to SMC 2025. The dataset and models are made available at https://github.com/3190105222/EgoEv_Gesture
🔗 代码/项目: GITHUB
💡 一句话要点
提出EgoEvGesture,一种基于事件相机的轻量级手势识别网络,并构建了大规模数据集。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation)
关键词: 事件相机 手势识别 自中心视角 深度学习 异步事件流
📋 核心要点
- 传统RGB手势识别易受运动模糊和光照变化影响,而事件相机数据处理面临异步性和自中心视角下的头部运动干扰。
- 设计轻量级CNN提取时空特征,利用状态空间模型解耦头部运动噪声,并使用BTSM高效融合稀疏事件。
- 在EgoEvGesture数据集上,该方法在未见过的受试者上准确率提升3.1%,并在DVS128 Gesture数据集上达到97.0%准确率。
📝 摘要(中文)
本文提出了一种基于事件相机的自中心手势识别方法,旨在解决传统RGB方法在动态场景中存在的运动模糊和光照变化问题。针对事件相机异步数据流的特性,以及自中心视角下头部运动对手势识别的干扰,本文设计了一种专门用于事件数据处理的网络架构。该架构包含:(1)一个轻量级的CNN,采用非对称深度可分离卷积,减少参数的同时保留时空特征;(2)一个即插即用的状态空间模型作为上下文模块,解耦头部运动噪声和手势动态;(3)一个无参数的Bins-Temporal Shift Module (BTSM),沿bin和时间维度移动特征,高效融合稀疏事件。此外,本文还构建了首个大规模自中心事件相机手势识别数据集EgoEvGesture。实验结果表明,该方法在未见过的受试者上达到了62.7%的准确率,参数量仅为7M,比现有方法高3.1%。在DVS128 Gesture数据集上达到了97.0%的准确率,验证了方法的有效性和泛化能力。
🔬 方法详解
问题定义:论文旨在解决自中心视角下,使用事件相机进行手势识别的问题。现有基于RGB的方法难以处理动态场景下的运动模糊和光照变化,而直接将RGB网络应用于事件数据,无法有效处理事件流的异步特性。此外,自中心视角下,头部运动会引入额外的噪声,增加了手势识别的难度。
核心思路:论文的核心思路是设计一个专门针对事件数据和自中心视角的轻量级网络架构。通过非对称深度可分离卷积提取时空特征,利用状态空间模型抑制头部运动噪声,并使用Bins-Temporal Shift Module (BTSM)高效融合稀疏事件。这种设计旨在充分利用事件相机的优势,同时克服自中心视角带来的挑战。
技术框架:整体框架包含三个主要模块:(1) 轻量级CNN:用于从事件数据中提取局部时空特征。该CNN采用非对称深度可分离卷积,以减少参数量并提高计算效率。(2) 状态空间模型:作为一个即插即用的上下文模块,用于建模手势的动态变化,并抑制头部运动带来的噪声。(3) Bins-Temporal Shift Module (BTSM):用于高效地融合稀疏事件。BTSM沿bin和时间维度移动特征,从而在时间和空间上聚合信息。
关键创新:论文的关键创新在于针对事件数据和自中心视角,设计了专门的网络架构。具体包括:(1) 非对称深度可分离卷积:相比于传统的卷积操作,可以显著减少参数量,同时保持模型的表达能力。(2) 状态空间模型:可以有效地建模手势的动态变化,并抑制头部运动带来的噪声。(3) Bins-Temporal Shift Module (BTSM):可以高效地融合稀疏事件,提高模型的鲁棒性。
关键设计:(1) 非对称深度可分离卷积:采用不同的深度卷积核大小,以适应不同方向上的特征变化。(2) 状态空间模型:使用GRU作为状态更新函数,并采用注意力机制来选择重要的上下文信息。(3) Bins-Temporal Shift Module (BTSM):将事件数据划分为多个bin,并在时间和空间维度上进行移位操作,以聚合信息。该模块是无参数的,可以减少模型的复杂性。
🖼️ 关键图片
📊 实验亮点
该方法在EgoEvGesture数据集上,针对未见过的受试者,实现了62.7%的准确率,相比于现有方法提升了3.1%,参数量仅为7M。此外,在公开数据集DVS128 Gesture上,该方法达到了97.0%的准确率,验证了其有效性和泛化能力。实验结果表明,该方法在处理自中心事件相机数据的手势识别任务上具有显著优势。
🎯 应用场景
该研究成果可应用于增强现实/虚拟现实(AR/VR)、人机交互、智能家居、辅助驾驶等领域。例如,在AR/VR中,用户可以通过手势与虚拟环境进行交互;在智能家居中,用户可以通过手势控制家电设备;在辅助驾驶中,系统可以通过手势识别驾驶员的意图,提高驾驶安全性。
📄 摘要(原文)
Egocentric gesture recognition is a pivotal technology for enhancing natural human-computer interaction, yet traditional RGB-based solutions suffer from motion blur and illumination variations in dynamic scenarios. While event cameras show distinct advantages in handling high dynamic range with ultra-low power consumption, existing RGB-based architectures face inherent limitations in processing asynchronous event streams due to their synchronous frame-based nature. Moreover, from an egocentric perspective, event cameras record data that includes events generated by both head movements and hand gestures, thereby increasing the complexity of gesture recognition. To address this, we propose a novel network architecture specifically designed for event data processing, incorporating (1) a lightweight CNN with asymmetric depthwise convolutions to reduce parameters while preserving spatiotemporal features, (2) a plug-and-play state-space model as context block that decouples head movement noise from gesture dynamics, and (3) a parameter-free Bins-Temporal Shift Module (BTSM) that shifts features along bins and temporal dimensions to fuse sparse events efficiently. We further establish the EgoEvGesture dataset, the first large-scale dataset for egocentric gesture recognition using event cameras. Experimental results demonstrate that our method achieves 62.7% accuracy tested on unseen subjects with only 7M parameters, 3.1% higher than state-of-the-art approaches. Notable misclassifications in freestyle motions stem from high inter-personal variability and unseen test patterns differing from training data. Moreover, our approach achieved a remarkable accuracy of 97.0% on the DVS128 Gesture, demonstrating the effectiveness and generalization capability of our method on public datasets. The dataset and models are made available at https://github.com/3190105222/EgoEv_Gesture.