Prompt-to-Gesture: Measuring the Capabilities of Image-to-Video Deictic Gesture Generation

📄 arXiv: 2604.14953v1 📥 PDF

作者: Hassan Ali, Doreen Jirak, Luca Müller, Stefan Wermter

分类: cs.CV

发布日期: 2026-04-16

备注: Accepted at 2026 International Conference on Automatic Face and Gesture Recognition (FG)


💡 一句话要点

提出Prompt-to-Gesture框架,利用图像到视频生成模型合成手势数据,缓解手势识别数据稀缺问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手势识别 数据增强 图像到视频生成 合成数据 深度学习

📋 核心要点

  1. 手势识别领域面临数据匮乏难题,传统方法依赖昂贵的人工标注或无法生成真实手势变化。
  2. 论文提出Prompt-to-Gesture框架,利用图像到视频生成模型,通过少量样本生成多样化的手势视频。
  3. 实验表明,合成手势在视觉上与真实手势相似,且能提升下游任务中深度模型的性能。

📝 摘要(中文)

手势识别研究面临严重的数据稀缺问题,受限于高昂的人工录制成本和无法生成真实手势变化范围的图像处理方法。图像到视频生成模型的最新进展,使得生成逼真且语义丰富的视频成为可能。这为创建无需人工干预的合成数据提供了新途径,引发了视频生成AI模型是否能够增强和补充传统人工生成手势数据的关键问题。本文介绍并分析了基于提示的视频生成方法,以构建一个逼真的指示手势数据集,并严格评估其对下游任务的有效性。我们提出了一种数据生成流程,该流程从少量人工参与者收集的参考样本中生成指示手势,提供了一种易于访问的方法,可在机器学习社区内外使用。结果表明,合成手势不仅在视觉保真度方面与真实手势紧密对齐,而且引入了有意义的变化和新颖性,丰富了原始数据,混合数据集上各种深度模型的卓越性能进一步支持了这一点。这些发现表明,即使在早期阶段,图像到视频技术也为手势合成提供了一种强大的零样本方法,对下游任务具有明显的益处。

🔬 方法详解

问题定义:手势识别领域面临严重的数据稀缺问题。传统的手势识别数据集构建依赖于人工录制,成本高昂且难以覆盖各种手势变化。现有的图像处理方法虽然可以生成一些手势,但往往缺乏真实感和多样性,难以满足深度学习模型训练的需求。

核心思路:论文的核心思路是利用近年来快速发展的图像到视频生成模型,通过少量真实手势样本作为参考,生成大量逼真且具有多样性的合成手势视频。这种方法旨在降低数据采集成本,并为手势识别模型提供更丰富的训练数据。

技术框架:论文提出的Prompt-to-Gesture框架包含以下几个主要阶段:1) 收集少量真实手势视频作为参考样本。2) 设计合适的文本提示(Prompt),引导图像到视频生成模型生成特定类型的指示手势。3) 使用图像到视频生成模型,根据参考样本和文本提示,生成大量的合成手势视频。4) 将合成手势视频与真实手势视频混合,用于训练下游的手势识别模型。

关键创新:该论文的关键创新在于将图像到视频生成模型应用于手势合成领域,并验证了其在数据增强方面的有效性。与传统的手势数据生成方法相比,该方法能够以较低的成本生成更逼真、更多样化的手势数据,从而提升手势识别模型的性能。

关键设计:论文的关键设计包括:1) 如何设计有效的文本提示,以控制生成手势的类型和方向。2) 如何选择合适的图像到视频生成模型,以保证生成视频的质量和真实感。3) 如何评估合成手势视频的质量,以及其对下游任务的影响。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于图像到视频生成模型本身的范畴。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用合成手势数据训练的深度模型在手势识别任务上取得了显著的性能提升。具体而言,混合数据集训练的模型性能优于仅使用真实数据训练的模型,验证了合成手势数据在数据增强方面的有效性。论文还通过视觉评估,证明了合成手势在视觉保真度方面与真实手势高度相似。

🎯 应用场景

该研究成果可广泛应用于人机交互、虚拟现实、游戏、康复训练等领域。通过合成手势数据,可以降低手势识别系统的开发成本,提升系统的鲁棒性和泛化能力。未来,该方法还可以扩展到其他类型的手势合成,例如情感手势、交流手势等,为更自然、更智能的人机交互提供支持。

📄 摘要(原文)

Gesture recognition research, unlike NLP, continues to face acute data scarcity, with progress constrained by the need for costly human recordings or image processing approaches that cannot generate authentic variability in the gestures themselves. Recent advancements in image-to-video foundation models have enabled the generation of photorealistic, semantically rich videos guided by natural language. These capabilities open up new possibilities for creating effort-free synthetic data, raising the critical question of whether video Generative AI models can augment and complement traditional human-generated gesture data. In this paper, we introduce and analyze prompt-based video generation to construct a realistic deictic gestures dataset and rigorously evaluate its effectiveness for downstream tasks. We propose a data generation pipeline that produces deictic gestures from a small number of reference samples collected from human participants, providing an accessible approach that can be leveraged both within and beyond the machine learning community. Our results demonstrate that the synthetic gestures not only align closely with real ones in terms of visual fidelity but also introduce meaningful variability and novelty that enrich the original data, further supported by superior performance of various deep models using a mixed dataset. These findings highlight that image-to-video techniques, even in their early stages, offer a powerful zero-shot approach to gesture synthesis with clear benefits for downstream tasks.