Recognizing Co-Speech Gestures in-the-Wild
作者: Sindhu B Hegde, K R Prajwal, Andrew Zisserman
分类: cs.CV
发布日期: 2026-05-29
💡 一句话要点
提出大规模手势识别数据集GRW,用于解决野生环境下语义相关的手势识别问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手势识别 共现手势 多模态学习 视频理解 数据集 行为识别 时序定位
📋 核心要点
- 现有方法缺乏精确标注数据,难以捕捉野生环境下语义相关的共现手势。
- 构建大规模GRW数据集,包含15万+视频片段,覆盖150个词汇的手势。
- 利用GRW训练视频模型,实现手势分类、词汇识别和时间定位,并建立基准。
📝 摘要(中文)
人类在说话时会自然地做出手势,但只有一小部分手势在视觉上具有描述性,并且在语义上与特定的口语词汇相关联。现有的多模态模型难以捕捉这些语义相关的共现手势,这主要是由于缺乏精确标注的训练数据。为了解决这个问题,我们引入了Gesture Recognition in the Wild (GRW)数据集,这是第一个大规模的基准,旨在将不受约束的人类手势映射到具有帧级别精确时间边界的特定词汇。GRW包含156,688个手动标注的视频片段,涵盖了150个词汇的物理动作、空间描述和抽象概念。我们利用GRW来训练视频模型,以(a)将手势分类为语义相关或不相关,(b)识别与共现手势相对应的词汇,以及(c)在时间上定位手势。我们还使用GRW为这三个任务建立了基准。
🔬 方法详解
问题定义:论文旨在解决野生环境下共现手势识别的问题。现有方法受限于缺乏大规模、精确标注的数据集,导致模型难以有效学习手势与语义之间的关联,无法准确识别和定位语义相关的手势。
核心思路:论文的核心思路是通过构建一个大规模、精确标注的数据集GRW,为训练能够理解和识别共现手势的视频模型提供充足的数据支持。通过在GRW上训练,模型可以学习到手势的视觉特征与对应词汇之间的语义关联,从而提升手势识别的准确性和鲁棒性。
技术框架:整体框架包含数据集构建和模型训练两个主要阶段。数据集构建阶段,作者收集了大量包含人类手势的视频,并对每个视频片段进行人工标注,包括手势的起始和结束时间,以及对应的词汇。模型训练阶段,作者利用GRW数据集训练视频模型,用于手势分类(语义相关或不相关)、词汇识别和时间定位。
关键创新:论文的关键创新在于构建了首个大规模的、针对野生环境下共现手势识别的GRW数据集。该数据集的规模和多样性远超以往的数据集,为训练高性能的手势识别模型提供了可能。此外,论文还基于GRW数据集建立了三个任务的基准,为后续研究提供了参考。
关键设计:GRW数据集包含156,688个手动标注的视频片段,涵盖了150个词汇的物理动作、空间描述和抽象概念。在模型训练方面,论文使用了标准的视频分类和定位模型,并针对手势识别任务进行了优化。具体的网络结构和损失函数等细节未在摘要中详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文构建了大规模GRW数据集,包含15万+视频片段,涵盖150个词汇。利用GRW数据集,可以训练视频模型进行手势分类、词汇识别和时间定位,并建立了三个任务的基准。具体的性能数据和提升幅度未在摘要中详细描述,属于未知信息。
🎯 应用场景
该研究成果可应用于人机交互、智能助手、手语翻译等领域。通过识别用户在语音交流中的手势,可以更准确地理解用户的意图,从而提供更自然、更智能的交互体验。例如,在虚拟现实环境中,可以利用手势识别技术实现更逼真的手势控制。
📄 摘要(原文)
While humans naturally gesture during speech, only a sparse subset of these movements are visually depictive and semantically linked to specific spoken words. Current multimodal models struggle to capture these semantic co-speech gestures, heavily bottlenecked by a lack of precisely annotated training data. To address this, we introduce the Gesture Recognition in the Wild (GRW) dataset, the first large-scale benchmark designed to map unconstrained human gestures to specific words with frame-accurate temporal boundaries. Comprising 156,688 manually annotated video clips, GRW spans a highly diverse 150-word taxonomy of physical actions, spatial descriptors, and abstract concepts. We leverage GRW to train video models to (a) classify gestures as semantic or not, (b) recognize the word corresponding to a co-speech gesture, and (c) temporally localize the gesture. We also use GRW to establish benchmarks for these three tasks.