EggHand: A Multimodal Foundation Model for Egocentric Hand Pose Forecasting

📄 arXiv: 2605.07642v1 📥 PDF

作者: Jaeyoung Choi, Hyeondong Kim, Yujin Kim, Daehee Park

分类: cs.CV

发布日期: 2026-05-08

备注: CVPR Findings 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

EggHand:基于多模态基础模型的自中心视角手部姿态预测

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手部姿态预测 自中心视角 多模态融合 基础模型 动作预测

📋 核心要点

  1. 自中心视角的手部姿态预测对于理解人类意图和实现AR/VR辅助等具身应用至关重要,但现有方法在剧烈视角变化下表现不佳。
  2. EggHand通过结合VLA模型的动作解码器和视角感知的视频-文本编码器,实现了运动、上下文和高层意图的联合推理。
  3. 在EgoExo4D数据集上,EggHand在预测精度方面取得了新的state-of-the-art,并在剧烈自运动下保持了鲁棒性,同时支持语言控制。

📝 摘要(中文)

本文提出EggHand,一个基于基础模型的自中心手部姿态预测框架,它统一了多模态语义推理和动态运动建模。该方法将视觉-语言-动作(VLA)模型中的动作解码器(捕捉手部运动的结构化时间动态)与自中心视频-文本编码器(提供从大规模第一人称视频中学习到的视角感知上下文信息)相结合。这些组件共同克服了通用视觉编码器在自运动下的脆弱性,并支持对运动、上下文和高层意图的联合推理,而无需依赖身体姿势或外部跟踪。在EgoExo4D数据集上的实验表明,EggHand在预测精度方面创造了新的state-of-the-art,在严重的自运动下保持稳健性,并通过基于语言的任务提示实现可控预测。

🔬 方法详解

问题定义:论文旨在解决自中心视角下3D手部姿态预测问题。现有的视觉编码器在自运动造成的剧烈视角变化下表现出脆弱性,难以准确预测手部姿态序列。同时,手部运动受到复杂的人类意图驱动,具有高度灵巧的关节运动,进一步增加了预测的难度。

核心思路:论文的核心思路是将视觉-语言-动作(VLA)模型中的动作解码器与自中心视频-文本编码器相结合,从而实现多模态语义推理和动态运动建模。VLA模型能够捕捉手部运动的结构化时间动态,而视频-文本编码器则能够提供视角感知的上下文信息。通过这种方式,模型可以更好地理解手部运动的意图,并克服自运动带来的视角变化。

技术框架:EggHand框架主要由两个核心模块组成:1) 动作解码器:来自VLA模型,负责捕捉手部运动的结构化时间动态,预测未来的手部姿态序列。2) 自中心视频-文本编码器:负责从第一人称视频中提取视角感知的上下文信息,为姿态预测提供背景知识。这两个模块共同作用,实现对运动、上下文和高层意图的联合推理。框架无需依赖身体姿势或外部跟踪。

关键创新:该方法的关键创新在于将VLA模型的动作解码器与自中心视频-文本编码器相结合,从而实现了多模态语义推理和动态运动建模。与传统的仅依赖视觉信息的编码器相比,EggHand能够更好地理解手部运动的意图,并克服自运动带来的视角变化。此外,通过语言提示进行可控预测也是一个重要的创新点。

关键设计:论文中关于参数设置、损失函数和网络结构的具体技术细节未明确说明。但是,可以推测动作解码器采用了Transformer架构,以捕捉手部运动的时序依赖关系。视频-文本编码器可能使用了对比学习方法,以学习视频和文本之间的对应关系。损失函数可能包括姿态预测损失和对比学习损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EggHand在EgoExo4D数据集上取得了state-of-the-art的预测精度,表明该方法在自中心手部姿态预测方面具有显著优势。实验结果还表明,EggHand在剧烈的自运动下保持了鲁棒性,并且可以通过语言提示实现可控预测。具体性能数据和与基线方法的详细对比信息在论文中未提供。

🎯 应用场景

EggHand的研究成果可广泛应用于AR/VR辅助、人机交互、机器人控制等领域。例如,在AR/VR应用中,系统可以预测用户的手部动作,从而提供更自然、更流畅的交互体验。在人机交互领域,机器人可以通过理解人类的手部动作,更好地完成任务。该研究的未来影响在于推动具身智能的发展,使机器能够更好地理解人类意图并进行协作。

📄 摘要(原文)

Forecasting future 3D hand pose sequences from egocentric video is essential for understanding human intention and enabling embodied applications such as AR/VR assistance and human-robot interaction. However, this task remains a highly challenging problem because egocentric hand motion is driven by complex human intent, exhibits highly dexterous articulations, and is observed under drastic viewpoint shifts induced by ego-motion. In this work, we introduce EggHand, a foundation-model-based framework for egocentric hand pose forecasting that unifies multimodal semantic reasoning with dynamic motion modeling. Our approach couples an action decoder from a Vision-Language-Action (VLA) model, which captures the structured temporal dynamics of hand motion, with an egocentric video-text encoder that provides viewpoint-aware contextual information learned from large-scale first-person video. Together, these components overcome the brittleness of generic visual encoders under ego-motion and enable joint reasoning over motion, context, and high-level intent-without relying on body pose or external tracking. Experiments on the EgoExo4D dataset show that EggHand sets a new state of the art in forecasting accuracy, remains robust under severe ego-motion, and further enables controllable prediction via language-based task prompts. Project page: https://jyoun9.github.io/EggHand