Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

📄 arXiv: 2603.12533v1 📥 PDF

作者: Yura Choi, Roy Miles, Rolandos Alexandros Potamias, Ismail Elezi, Jiankang Deng, Stefanos Zafeiriou

分类: cs.CV

发布日期: 2026-03-13

备注: Accepted to CVPR 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出EgoPointVQA数据集以解决手势基础的自我中心视频问答问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自我中心视频 手势识别 多模态学习 问答系统 深度学习

📋 核心要点

  1. 现有的多模态大型语言模型在理解用户指向手势并回答相关问题时存在显著不足,主要是由于缺乏手势丰富的数据和推断能力。
  2. 本文提出了EgoPointVQA数据集,包含合成和真实视频,并引入手势意图标记(HINT)来增强模型对指向意图的理解。
  3. 实验结果表明,HINT-14B模型在多个任务中表现优异,准确率达到68.1%,显著超越了现有的最先进模型。

📝 摘要(中文)

理解并回答基于用户指向手势的问题对于下一代自我中心AI助手至关重要。然而,现有的多模态大型语言模型在这类任务中表现不佳,主要由于缺乏丰富的手势数据以及从自我中心视频中推断细粒度指向意图的能力有限。为此,本文提出了EgoPointVQA数据集和基准,包含4000个合成视频和400个真实世界视频,涵盖多种指示性推理任务。基于此,我们进一步提出了手势意图标记(HINT),通过使用现成的重建模型对3D手部关键点进行编码,并将其与模型输入交错,以提供明确的空间和时间上下文来解释指向意图。我们的模型在不同的骨干网络和模型规模中表现优于其他模型,特别是HINT-14B在6个任务上的平均准确率达到68.1%,超越了现有的最先进模型InternVL3-14B 6.6%。

🔬 方法详解

问题定义:本文旨在解决基于用户手势的自我中心视频问答问题。现有方法在处理手势数据时面临数据稀缺和推断能力不足的挑战。

核心思路:提出EgoPointVQA数据集和手势意图标记(HINT),通过编码3D手部关键点来提供明确的空间和时间上下文,以帮助模型更好地理解指向意图。

技术框架:整体架构包括数据集构建、HINT生成和模型训练三个主要模块。数据集提供多样化的视频样本,HINT模块负责生成手势意图标记,最后通过训练模型进行问答任务。

关键创新:HINT的引入是本文的核心创新,它通过将手部关键点信息与模型输入结合,显著提升了模型对指向意图的理解能力,与现有方法形成鲜明对比。

关键设计:在模型设计中,采用了现成的3D重建模型来提取手部关键点,并通过特定的损失函数优化模型性能,确保在多种任务中均能有效学习指向意图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,HINT-14B模型在6个任务上的平均准确率达到68.1%,相比于现有的最先进模型InternVL3-14B提升了6.6%。这一显著的性能提升表明了HINT在理解指向意图方面的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能助手、增强现实和人机交互等。通过提升AI对用户手势的理解能力,能够更好地满足用户需求,推动智能设备的普及和应用。未来,该技术可能在教育、医疗和娱乐等多个领域产生深远影响。

📄 摘要(原文)

Understanding and answering questions based on a user's pointing gesture is essential for next-generation egocentric AI assistants. However, current Multimodal Large Language Models (MLLMs) struggle with such tasks due to the lack of gesture-rich data and their limited ability to infer fine-grained pointing intent from egocentric video. To address this, we introduce EgoPointVQA, a dataset and benchmark for gesture-grounded egocentric question answering, comprising 4000 synthetic and 400 real-world videos across multiple deictic reasoning tasks. Built upon it, we further propose Hand Intent Tokens (HINT), which encodes tokens derived from 3D hand keypoints using an off-the-shelf reconstruction model and interleaves them with the model input to provide explicit spatial and temporal context for interpreting pointing intent. We show that our model outperforms others in different backbones and model sizes. In particular, HINT-14B achieves 68.1% accuracy, on average over 6 tasks, surpassing the state-of-the-art, InternVL3-14B, by 6.6%. To further facilitate the open research, we will release the code, model, and dataset. Project page: https://yuuraa.github.io/papers/choi2026egovqa