FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video
作者: Andrea Boscolo Camiletto, Jian Wang, Eduardo Alvarado, Rishabh Dabral, Thabo Beeler, Marc Habermann, Christian Theobalt
分类: cs.CV
发布日期: 2025-03-29
备注: Accepted at CVPR 2025
💡 一句话要点
提出FRAME,利用头戴式相机和设备位姿实现高质量人体运动捕捉
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自中心运动捕捉 多模态融合 设备位姿 几何约束 深度学习 VR/AR 人体姿态估计
📋 核心要点
- 现有自中心运动捕捉方法依赖合成数据预训练,在真实场景下肢体运动预测精度不足,易产生伪影。
- 提出FRAME架构,结合头戴设备位姿和相机数据,通过几何约束实现多模态融合,提升运动捕捉质量。
- 构建大规模真实世界数据集,并设计新颖训练策略,增强模型泛化能力,实现高质量运动捕捉。
📝 摘要(中文)
本文提出了一种基于头戴式体朝向立体相机的自中心运动捕捉方法,该方法对于VR和AR应用至关重要,但面临着严重的遮挡和有限的真实世界标注数据等挑战。现有方法依赖于合成预训练,难以在真实世界环境中生成平滑和准确的预测,尤其是在下肢方面。为了解决这些限制,我们引入了一种轻量级的基于VR的数据收集设置,该设置具有板载实时6D位姿跟踪功能。利用此设置,我们收集了迄今为止规模和运动变化性方面最大的面向自我的自安装相机真实世界数据集。由于每个数据源的特性不同,有效地整合这种多模态输入(设备位姿和相机馈送)具有挑战性。为了解决这个问题,我们提出了FRAME,这是一种简单而有效的架构,它结合了设备位姿和相机馈送,通过几何上合理的多模态集成来实现最先进的身体姿势预测,并且可以在现代硬件上以300 FPS的速度运行。最后,我们展示了一种新颖的训练策略,以增强模型的泛化能力。我们的方法利用了问题的几何特性,从而产生了高质量的运动捕捉,避免了先前工作中常见的伪影。定性和定量评估以及广泛的比较证明了我们方法的有效性。数据、代码和CAD设计将在https://vcai.mpi-inf.mpg.de/projects/FRAME/上提供。
🔬 方法详解
问题定义:论文旨在解决自中心视角下,利用头戴式相机进行人体运动捕捉时,由于遮挡严重、真实数据匮乏以及多模态数据融合困难等问题。现有方法依赖合成数据预训练,导致在真实场景中,尤其是在下肢运动捕捉方面,精度较低,容易产生不自然的运动伪影。
核心思路:论文的核心思路是利用头戴设备的精确位姿信息作为几何约束,辅助自中心相机视觉信息,实现更鲁棒和准确的运动捕捉。通过结合设备位姿和视觉信息,模型可以更好地理解场景的几何结构,从而克服遮挡和视角限制带来的挑战。
技术框架:FRAME的整体架构包含以下几个主要模块:1) 数据采集模块:使用VR设备进行真实世界数据采集,同时获取相机图像和设备位姿信息。2) 特征提取模块:分别提取相机图像和设备位姿的特征。3) 多模态融合模块:将相机图像特征和设备位姿特征进行融合,利用几何约束进行信息交互。4) 姿态预测模块:基于融合后的特征,预测人体姿态。
关键创新:论文的关键创新在于:1) 提出了FRAME架构,通过几何约束实现设备位姿和视觉信息的多模态融合,提升了运动捕捉的精度和鲁棒性。2) 构建了大规模的真实世界自中心运动捕捉数据集,为模型训练提供了充足的数据支持。3) 设计了一种新颖的训练策略,增强了模型的泛化能力,使其能够更好地适应不同的场景和运动模式。
关键设计:在多模态融合模块中,论文可能采用了注意力机制或者其他融合策略,以更好地利用设备位姿信息。损失函数的设计可能考虑了运动的平滑性和自然性,例如使用时间一致性损失或者对抗损失。具体的网络结构细节(如卷积层数、全连接层数等)未知,但整体目标是实现高效的特征提取和融合。
🖼️ 关键图片
📊 实验亮点
论文构建了迄今为止最大的自中心运动捕捉数据集,并提出了FRAME架构。实验结果表明,FRAME在真实场景下的运动捕捉精度显著优于现有方法,能够生成更平滑、更自然的运动。具体性能数据和对比基线未知,但论文强调了其方法在避免运动伪影方面的优势。
🎯 应用场景
该研究成果可广泛应用于VR/AR、游戏、虚拟化身、远程协作等领域。高质量的自中心运动捕捉能够提升VR/AR应用的沉浸感和交互性,为用户提供更自然、更真实的体验。此外,该技术还可用于运动分析、康复训练等领域,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
Egocentric motion capture with a head-mounted body-facing stereo camera is crucial for VR and AR applications but presents significant challenges such as heavy occlusions and limited annotated real-world data. Existing methods rely on synthetic pretraining and struggle to generate smooth and accurate predictions in real-world settings, particularly for lower limbs. Our work addresses these limitations by introducing a lightweight VR-based data collection setup with on-board, real-time 6D pose tracking. Using this setup, we collected the most extensive real-world dataset for ego-facing ego-mounted cameras to date in size and motion variability. Effectively integrating this multimodal input -- device pose and camera feeds -- is challenging due to the differing characteristics of each data source. To address this, we propose FRAME, a simple yet effective architecture that combines device pose and camera feeds for state-of-the-art body pose prediction through geometrically sound multimodal integration and can run at 300 FPS on modern hardware. Lastly, we showcase a novel training strategy to enhance the model's generalization capabilities. Our approach exploits the problem's geometric properties, yielding high-quality motion capture free from common artifacts in prior works. Qualitative and quantitative evaluations, along with extensive comparisons, demonstrate the effectiveness of our method. Data, code, and CAD designs will be available at https://vcai.mpi-inf.mpg.de/projects/FRAME/