E-3DPSM: A State Machine for Event-Based Egocentric 3D Human Pose Estimation
作者: Mayur Deshmukh, Hiroyasu Akada, Helge Rhodin, Christian Theobalt, Vladislav Golyanik
分类: cs.CV
发布日期: 2026-04-09
备注: 20 pages; 14 figures and 14 tables; CVPR 2026; project page: https://4dqv.mpi-inf.mpg.de/E-3DPSM/
💡 一句话要点
提出E-3DPSM,用于事件相机在单目自中心3D人体姿态估计中提升精度与稳定性。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 事件相机 3D人体姿态估计 自中心视角 状态机 事件驱动
📋 核心要点
- 现有基于事件相机的自中心3D人体姿态估计方法精度不足,对自遮挡和时间抖动敏感。
- E-3DPSM通过事件驱动的姿态状态机,将连续运动与事件动态对齐,融合预测变化和直接姿态,实现稳定估计。
- 实验表明,E-3DPSM在精度和时间稳定性上均显著优于现有方法,精度提升高达19%,稳定性提升2.7倍。
📝 摘要(中文)
本文提出了一种名为E-3DPSM的事件驱动连续姿态状态机,用于事件相机在单目自中心3D人体姿态估计。事件相机具有毫秒级时间分辨率、高动态范围和可忽略的运动模糊等优点。现有方法虽利用了这些特性,但3D估计精度较低,无法满足许多应用(如沉浸式VR/AR)的需求。这是由于其设计未充分针对事件流的异步和连续性,导致对自遮挡和估计中的时间抖动高度敏感。E-3DPSM将连续人体运动与精细的事件动态对齐,演化潜在状态并预测与观察到的事件相关的3D关节位置的连续变化,这些变化与直接3D人体姿态预测融合,从而实现稳定且无漂移的最终3D姿态重建。E-3DPSM在单个工作站上以80 Hz的实时速度运行,并在两个基准测试中取得了新的state-of-the-art,精度(MPJPE)提高了高达19%,时间稳定性提高了高达2.7倍。
🔬 方法详解
问题定义:论文旨在解决单目自中心视角下,使用事件相机进行3D人体姿态估计时,现有方法精度低、对自遮挡和时间抖动敏感的问题。现有方法未能充分利用事件流的异步和连续特性,导致估计结果不稳定,难以满足VR/AR等应用的需求。
核心思路:论文的核心思路是设计一个事件驱动的连续姿态状态机(E-3DPSM),将连续的人体运动与精细的事件动态对齐。通过状态机来建模姿态随时间的变化,利用事件流驱动状态的演化,从而实现更准确和稳定的姿态估计。这种设计能够更好地适应事件流的特性,减少自遮挡和时间抖动的影响。
技术框架:E-3DPSM包含以下主要模块:1) 事件编码器:将事件流编码为特征表示。2) 姿态状态机:维护一个潜在状态,该状态表示当前的人体姿态。3) 状态演化器:根据事件编码器的输出,预测潜在状态的连续变化。4) 姿态预测器:直接预测3D人体姿态。5) 融合模块:将状态演化器预测的姿态变化与姿态预测器的直接预测融合,得到最终的3D姿态估计。整个流程是连续的,事件流不断驱动状态机的演化和姿态的更新。
关键创新:E-3DPSM的关键创新在于其事件驱动的连续姿态状态机设计。与现有方法不同,E-3DPSM不是简单地将事件流作为图像的替代品,而是将其视为驱动姿态演化的信号。通过状态机建模姿态的时间动态,能够更好地利用事件流的异步和连续特性,从而提高估计的精度和稳定性。
关键设计:E-3DPSM的关键设计包括:1) 使用循环神经网络(RNN)作为状态演化器,以建模姿态的时间依赖性。2) 设计了特定的损失函数,鼓励状态演化器预测的姿态变化与实际的事件流一致。3) 使用加权融合策略,将状态演化器预测的姿态变化与姿态预测器的直接预测进行融合,权重根据置信度动态调整。具体网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,E-3DPSM在两个公开基准测试数据集上均取得了state-of-the-art的性能。在精度方面,MPJPE指标提升高达19%。在时间稳定性方面,抖动降低了高达2.7倍。这些结果证明了E-3DPSM在事件相机自中心3D人体姿态估计方面的有效性和优越性。
🎯 应用场景
该研究成果可应用于VR/AR、人机交互、运动捕捉、康复训练等领域。在VR/AR中,能够提供更准确和稳定的用户姿态信息,提升沉浸感和交互体验。在人机交互中,可以实现更自然和流畅的人体动作识别和控制。在运动捕捉和康复训练中,能够提供更精确的运动数据,辅助分析和指导。
📄 摘要(原文)
Event cameras offer multiple advantages in monocular egocentric 3D human pose estimation from head-mounted devices, such as millisecond temporal resolution, high dynamic range, and negligible motion blur. Existing methods effectively leverage these properties, but suffer from low 3D estimation accuracy, insufficient in many applications (e.g., immersive VR/AR). This is due to the design not being fully tailored towards event streams (e.g., their asynchronous and continuous nature), leading to high sensitivity to self-occlusions and temporal jitter in the estimates. This paper rethinks the setting and introduces E-3DPSM, an event-driven continuous pose state machine for event-based egocentric 3D human pose estimation. E-3DPSM aligns continuous human motion with fine-grained event dynamics; it evolves latent states and predicts continuous changes in 3D joint positions associated with observed events, which are fused with direct 3D human pose predictions, leading to stable and drift-free final 3D pose reconstructions. E-3DPSM runs in real-time at 80 Hz on a single workstation and sets a new state of the art in experiments on two benchmarks, improving accuracy by up to 19% (MPJPE) and temporal stability by up to 2.7x. See our project page for the source code and trained models.