FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision
作者: Zekai Wu, Shuqi Fan, Mengyin Liu, Yuhua Luo, Xincheng Lin, Ming Yan, Junhao Wu, Xiuhong Lin, Yuexin Ma, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang
分类: cs.CV
发布日期: 2026-03-20
备注: Accepted to CVPR 2026
💡 一句话要点
FlashCap:基于闪烁LED和事件相机的毫秒级精确人体运动捕捉系统
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体运动捕捉 事件相机 闪烁LED 高时间分辨率 姿态估计 运动分析 多模态数据集
📋 核心要点
- 现有的人体姿态估计方法缺乏高时间分辨率的数据集,难以实现精确的运动计时,限制了快速运动分析的应用。
- FlashCap系统利用闪烁的LED和事件相机,构建了一个高时间分辨率的人体运动捕捉系统,并收集了包含多种模态的数据集FlashMotion。
- 提出的ResPose模型基于事件和RGB数据学习残差姿态,在姿态估计精度上提升约40%,并实现了毫秒级的计时精度。
📝 摘要(中文)
精确运动计时(PMT)对于快速运动分析至关重要。在体育比赛中,毫秒级的差异可能决定胜负。尽管人体姿态估计(HPE)取得了显著进展,但由于缺乏高时间分辨率的标注数据集,HPE领域在很大程度上忽略了PMT。目前,PMT主要通过奥运会等特殊场景中的高速RGB相机实现;然而,它们的高成本、光敏感性、带宽和计算复杂性限制了其在日常使用中的可行性。我们开发了FlashCap,这是第一个基于闪烁LED的MoCap系统,用于PMT。利用FlashCap,我们收集了一个毫秒级分辨率的人体运动数据集FlashMotion,包含事件、RGB、LiDAR和IMU模态,并通过严格的验证证明了其高质量。为了评估FlashMotion的优点,我们执行了两项任务:精确运动计时和高时间分辨率HPE。针对这些任务,我们提出了ResPose,一个简单而有效的基线,它基于事件和RGB学习残差姿态。实验结果表明,ResPose将姿态估计误差降低了约40%,并实现了毫秒级的计时精度,从而为新的研究机会提供了可能。数据集和代码将与社区共享。
🔬 方法详解
问题定义:论文旨在解决人体运动捕捉中精确运动计时(PMT)的问题。现有方法主要依赖于高速RGB相机,但其高成本、光照敏感性、高带宽需求和计算复杂度限制了其在日常场景中的应用。同时,缺乏高时间分辨率的标注数据集也阻碍了相关研究的进展。
核心思路:论文的核心思路是利用闪烁的LED作为时间同步信号,结合事件相机的高时间分辨率特性,构建一个低成本、高精度的人体运动捕捉系统。通过在人体关键部位佩戴闪烁的LED,事件相机可以精确捕捉LED的闪烁事件,从而实现毫秒级的运动计时。
技术框架:FlashCap系统主要包含以下几个部分:1) 在人体关键部位佩戴的闪烁LED;2) 用于捕捉LED闪烁事件的事件相机;3) 用于同步不同模态数据的同步模块;4) 包含事件、RGB、LiDAR和IMU模态的FlashMotion数据集;5) 用于评估数据集性能的ResPose模型。整体流程为:LED闪烁 -> 事件相机捕捉 -> 数据同步 -> 数据集构建 -> 模型训练与评估。
关键创新:论文的关键创新在于:1) 提出了基于闪烁LED和事件相机的人体运动捕捉系统FlashCap,实现了毫秒级的运动计时精度;2) 构建了包含多种模态的高质量人体运动数据集FlashMotion;3) 提出了简单有效的ResPose模型,利用事件和RGB数据进行残差姿态估计,显著提高了姿态估计的精度。
关键设计:ResPose模型采用残差学习的思想,首先利用RGB图像进行初步的姿态估计,然后利用事件数据学习残差姿态,从而提高姿态估计的精度。具体的网络结构细节和损失函数信息在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FlashCap系统能够实现毫秒级的运动计时精度。提出的ResPose模型在FlashMotion数据集上进行训练和评估,相比于传统的基于RGB图像的姿态估计方法,姿态估计误差降低了约40%。这些结果验证了FlashCap系统和FlashMotion数据集的有效性,以及ResPose模型的优越性。
🎯 应用场景
该研究成果可应用于体育运动分析、康复训练、人机交互、虚拟现实等领域。通过精确捕捉人体运动的细节,可以帮助运动员提高训练效率,辅助医生进行康复评估,提升人机交互的自然性,并为虚拟现实应用提供更逼真的运动体验。未来,该技术有望在更广泛的领域得到应用,例如动作捕捉、机器人控制等。
📄 摘要(原文)
Precise motion timing (PMT) is crucial for swift motion analysis. A millisecond difference may determine victory or defeat in sports competitions. Despite substantial progress in human pose estimation (HPE), PMT remains largely overlooked by the HPE community due to the limited availability of high-temporal-resolution labeled datasets. Today, PMT is achieved using high-speed RGB cameras in specialized scenarios such as the Olympic Games; however, their high costs, light sensitivity, bandwidth, and computational complexity limit their feasibility for daily use. We developed FlashCap, the first flashing LED-based MoCap system for PMT. With FlashCap, we collect a millisecond-resolution human motion dataset, FlashMotion, comprising the event, RGB, LiDAR, and IMU modalities, and demonstrate its high quality through rigorous validation. To evaluate the merits of FlashMotion, we perform two tasks: precise motion timing and high-temporal-resolution HPE. For these tasks, we propose ResPose, a simple yet effective baseline that learns residual poses based on events and RGBs. Experimental results show that ResPose reduces pose estimation errors by ~40% and achieves millisecond-level timing accuracy, enabling new research opportunities. The dataset and code will be shared with the community.