EgoEV-HandPose: Egocentric 3D Hand Pose Estimation and Gesture Recognition with Stereo Event Cameras
作者: Luming Wang, Hao Shi, Jiajun Zhai, Kailun Yang, Kaiwei Wang
分类: cs.CV, cs.RO, eess.IV
发布日期: 2026-05-12
备注: Extended version of SMC 2025 paper arXiv:2503.12419. The established dataset and source code will be publicly released at https://github.com/ZJUWang01/EgoEV-HandPose
🔗 代码/项目: GITHUB
💡 一句话要点
EgoEV-HandPose:利用立体事件相机进行第一人称3D手部姿态估计和手势识别
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 事件相机 手部姿态估计 手势识别 立体视觉 鸟瞰图 深度估计 人机交互
📋 核心要点
- 传统相机易受运动模糊和动态范围限制,现有基于事件相机的方法受自运动干扰和单目深度歧义影响。
- 提出KeypointBEV模块,通过将特征提升到鸟瞰视图空间并迭代优化,解决深度不确定性和加强运动学一致性。
- 构建EgoEVHands数据集,并在实验中显著优于RGB立体和现有事件相机方法,尤其在弱光和遮挡场景下。
📝 摘要(中文)
本文提出EgoEV-HandPose,一个端到端的框架,用于从立体事件流中联合进行3D双手动姿态估计和手势识别。该方法的核心是KeypointBEV,一个灵活的立体融合模块,它将特征提升到规范的鸟瞰视图空间,并采用迭代的重投影引导细化循环,以逐步解决深度不确定性并加强运动学一致性。此外,本文还引入了EgoEVHands,这是第一个用于以自我为中心的手部感知的真实世界大规模立体事件相机数据集,包含5,419个带注释的序列,具有跨38个手势类别的密集3D/2D关键点,涵盖不同的光照条件。大量实验表明,EgoEV-HandPose实现了最先进的性能,MPJPE为30.54mm,Top-1手势识别准确率为86.87%,显著优于基于RGB的立体方法和先前的事件相机方法,尤其是在弱光和双手遮挡场景中,从而为基于事件的以自我为中心的感知设定了新的基准。建立的数据集和源代码将在https://github.com/ZJUWang01/EgoEV-HandPose公开发布。
🔬 方法详解
问题定义:论文旨在解决以自我为中心的视角下,利用事件相机进行精确的3D手部姿态估计和手势识别问题。现有方法在处理快速运动、弱光照和遮挡等场景时表现不佳,同时缺乏大规模的真实世界立体事件相机数据集。
核心思路:论文的核心思路是利用立体事件相机提供的互补信息,设计一种能够有效融合左右事件流特征并进行深度估计的框架。通过将特征转换到鸟瞰图(BEV)空间,并采用迭代的重投影引导细化策略,逐步消除深度歧义,并强制执行手部运动学约束,从而提高姿态估计的准确性和鲁棒性。
技术框架:EgoEV-HandPose框架主要包含以下几个模块:1) 事件流预处理:将原始事件数据转换为适合网络处理的表示形式。2) 特征提取:使用卷积神经网络从左右事件流中提取特征。3) KeypointBEV模块:将左右特征融合到鸟瞰图空间,并进行迭代的深度细化。4) 姿态估计:从鸟瞰图特征中预测3D手部关键点坐标。5) 手势识别:利用估计的3D关键点进行手势分类。
关键创新:KeypointBEV模块是该论文最重要的创新点。它通过将立体事件流的特征提升到鸟瞰图空间,从而能够更好地利用立体视觉的几何约束。迭代的重投影引导细化循环能够逐步消除深度不确定性,并强制执行手部运动学一致性,从而提高姿态估计的准确性。与现有方法相比,KeypointBEV模块能够更有效地融合立体事件流的信息,并更好地处理弱光照和遮挡等场景。
关键设计:KeypointBEV模块采用迭代的重投影引导细化循环。在每次迭代中,首先根据当前的深度估计将特征重投影到另一个视图,然后计算重投影误差。利用重投影误差来更新深度估计。损失函数包括3D关键点回归损失、2D关键点回归损失和手势分类损失。网络结构采用ResNet作为特征提取器,并使用Transformer进行特征融合和姿态估计。
🖼️ 关键图片
📊 实验亮点
EgoEV-HandPose在EgoEVHands数据集上取得了显著的性能提升,MPJPE(平均每关节位置误差)达到了30.54mm,Top-1手势识别准确率达到了86.87%。与基于RGB的立体方法和先前的事件相机方法相比,EgoEV-HandPose在弱光照和双手遮挡等复杂场景下表现出更强的鲁棒性,证明了该方法在事件相机手部姿态估计和手势识别方面的优越性。
🎯 应用场景
该研究成果可广泛应用于增强现实/虚拟现实(AR/VR)、人机交互(HCI)和机器人等领域。精确的手部姿态估计和手势识别能够实现更自然、更直观的人机交互方式,例如在VR游戏中进行手势控制,在机器人操作中进行远程手部动作示教等。此外,该技术在医疗康复、工业自动化等领域也具有潜在的应用价值。
📄 摘要(原文)
Egocentric 3D hand pose estimation and gesture recognition are essential for immersive augmented/virtual reality, human-computer interaction, and robotics. However, conventional frame-based cameras suffer from motion blur and limited dynamic range, while existing event-based methods are hindered by ego-motion interference, monocular depth ambiguity, and the lack of large-scale real-world stereo datasets. To overcome these limitations, we propose EgoEV-HandPose, an end-to-end framework for joint 3D bimanual pose estimation and gesture recognition from stereo event streams. Central to our approach is KeypointBEV, a flexible stereo fusion module that lifts features into a canonical bird's-eye-view space and employs an iterative reprojection-guided refinement loop to progressively resolve depth uncertainty and enforce kinematic consistency. In addition, we introduce EgoEVHands, the first large-scale real-world stereo event-camera dataset for egocentric hand perception, containing 5,419 annotated sequences with dense 3D/2D keypoints across 38 gesture classes under varying illumination. Extensive experiments demonstrate that EgoEV-HandPose achieves state-of-the-art performance with an MPJPE of 30.54mm and 86.87% Top-1 gesture recognition accuracy, significantly outperforming RGB-based stereo and prior event-camera methods, particularly in low-light and bimanual occlusion scenarios, thereby setting a new benchmark for event-based egocentric perception. The established dataset and source code will be publicly released at https://github.com/ZJUWang01/EgoEV-HandPose.