EgoPoseVR: Spatiotemporal Multi-Modal Reasoning for Egocentric Full-Body Pose in Virtual Reality

📄 arXiv: 2602.05590v1 📥 PDF

作者: Haojie Cheng, Shaun Jing Heng Ong, Shaoyu Cai, Aiden Tat Yang Koh, Fuxi Ouyang, Eng Tat Khoo

分类: cs.CV, cs.ET, cs.GR

发布日期: 2026-02-05


💡 一句话要点

提出EgoPoseVR以解决虚拟现实中的全身姿态估计问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation)

关键词: 虚拟现实 全身姿态估计 双模态融合 时空编码器 运动学优化 用户体验 深度学习

📋 核心要点

  1. 现有的基于头戴式相机的姿态估计方法在虚拟现实中存在时间不稳定和下半身估计不准确等问题。
  2. EgoPoseVR通过双模态融合,将头戴设备运动线索与RGB-D观测结合,提升姿态估计的准确性和稳定性。
  3. 实验结果显示EgoPoseVR在准确性、稳定性和用户体验上显著优于基线方法,具有更高的主观评分。

📝 摘要(中文)

沉浸式虚拟现实(VR)应用需要准确且时间一致的全身姿态跟踪。尽管基于头戴式相机的方法在自我中心姿态估计中展现出潜力,但在VR头戴显示器(HMD)中应用时面临时间不稳定、下半身估计不准确和实时性能不足等挑战。为了解决这些问题,本文提出了EgoPoseVR,一个端到端的框架,通过双模态融合管道,将头戴设备运动线索与自我中心RGB-D观测结合,实现准确的全身姿态估计。一个时空编码器提取帧级和关节级表示,通过交叉注意力融合,充分利用跨模态的互补运动线索。运动学优化模块则施加HMD信号的约束,增强姿态估计的准确性和稳定性。实验结果表明,EgoPoseVR在自我中心姿态估计模型中表现优于现有最先进的方法。

🔬 方法详解

问题定义:本文旨在解决虚拟现实中全身姿态估计的准确性和稳定性问题。现有方法在HMD应用中面临时间不稳定和下半身估计不准确等挑战。

核心思路:EgoPoseVR的核心思路是通过双模态融合,将头戴设备的运动线索与RGB-D观测结合,利用交叉注意力机制充分挖掘模态间的互补信息,从而提高姿态估计的准确性和稳定性。

技术框架:EgoPoseVR的整体架构包括三个主要模块:时空编码器、交叉注意力融合和运动学优化模块。时空编码器负责提取帧级和关节级表示,交叉注意力融合则将不同模态的信息进行整合,最后运动学优化模块根据HMD信号施加约束。

关键创新:EgoPoseVR的关键创新在于其双模态融合管道和交叉注意力机制,这与现有方法的单一模态处理方式形成鲜明对比,显著提升了姿态估计的准确性和稳定性。

关键设计:在设计中,EgoPoseVR采用了大规模合成数据集进行训练,包含超过180万帧的HMD和RGB-D数据,确保了模型的泛化能力和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EgoPoseVR在自我中心姿态估计中超越了现有最先进的模型,用户研究显示在准确性、稳定性和未来使用意图等方面的主观评分显著提高,提升幅度达到20%以上。

🎯 应用场景

EgoPoseVR的研究成果在虚拟现实游戏、训练模拟、远程协作等领域具有广泛的应用潜力。通过提供准确的全身姿态跟踪,用户可以在虚拟环境中获得更真实的沉浸体验,推动VR技术的进一步发展和普及。

📄 摘要(原文)

Immersive virtual reality (VR) applications demand accurate, temporally coherent full-body pose tracking. Recent head-mounted camera-based approaches show promise in egocentric pose estimation, but encounter challenges when applied to VR head-mounted displays (HMDs), including temporal instability, inaccurate lower-body estimation, and the lack of real-time performance. To address these limitations, we present EgoPoseVR, an end-to-end framework for accurate egocentric full-body pose estimation in VR that integrates headset motion cues with egocentric RGB-D observations through a dual-modality fusion pipeline. A spatiotemporal encoder extracts frame- and joint-level representations, which are fused via cross-attention to fully exploit complementary motion cues across modalities. A kinematic optimization module then imposes constraints from HMD signals, enhancing the accuracy and stability of pose estimation. To facilitate training and evaluation, we introduce a large-scale synthetic dataset of over 1.8 million temporally aligned HMD and RGB-D frames across diverse VR scenarios. Experimental results show that EgoPoseVR outperforms state-of-the-art egocentric pose estimation models. A user study in real-world scenes further shows that EgoPoseVR achieved significantly higher subjective ratings in accuracy, stability, embodiment, and intention for future use compared to baseline methods. These results show that EgoPoseVR enables robust full-body pose tracking, offering a practical solution for accurate VR embodiment without requiring additional body-worn sensors or room-scale tracking systems.