Intentional Gesture: Deliver Your Intentions with Gestures for Speech

作者: Pinxin Liu, Haiyang Liu, Luchuan Song, Jason J. Corso, Chenliang Xu

分类: cs.CV, cs.AI, cs.GR

发布日期: 2025-05-21 (更新: 2025-09-26)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出Intentional-Gesture框架，通过意图推理提升共语手势生成质量。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 共语手势生成 意图推理 具身智能 人机交互 运动合成

📋 核心要点

现有共语手势生成方法缺乏对人类交流意图的理解，导致生成的手势语义表达不足。
Intentional-Gesture框架将手势生成建模为意图推理任务，利用高级交流功能指导手势生成。
通过引入InG数据集和Intentional Gesture Motion Tokenizer，在BEAT-2数据集上取得了SOTA性能。

📝 摘要（中文）

现有的共语手势生成方法主要依赖于表面的语言线索（如语音或文本），忽略了人类手势背后的交流意图。这导致生成的手势在节奏上与语音同步，但在语义上较为浅薄。为了解决这个问题，论文提出了Intentional-Gesture，一个新颖的框架，将手势生成视为一个基于高级交流功能的意图推理任务。首先，通过使用大型视觉-语言模型自动标注手势意图（即总结意图的文本句子），扩充了BEAT-2数据集，得到了InG数据集。其次，引入了Intentional Gesture Motion Tokenizer，将高级交流功能（例如意图）注入到token化的运动表示中，从而实现意图感知的、在时间上对齐且语义上有意义的手势合成，并在BEAT-2基准测试上实现了新的state-of-the-art性能。该框架为数字人和具身AI中的表达性手势生成提供了一个模块化的基础。

🔬 方法详解

问题定义：现有共语手势生成方法主要依赖语音或文本等浅层语言信息，忽略了手势背后蕴含的交流意图。这导致生成的手势虽然能与语音同步，但在语义上缺乏深度，难以表达说话者的真实意图。因此，如何让机器理解并利用交流意图生成更具语义的手势是本文要解决的核心问题。

核心思路：本文的核心思路是将手势生成视为一个意图推理任务。通过显式地建模手势背后的交流意图，并将其融入到手势生成过程中，从而生成更具语义和表达力的手势。具体来说，就是利用大型视觉-语言模型提取手势意图，并设计相应的模块将意图信息融入到运动表示中。

技术框架：Intentional-Gesture框架主要包含以下几个模块：1) InG数据集：通过大型视觉-语言模型自动标注BEAT-2数据集，得到包含手势意图标注的InG数据集。2) Intentional Gesture Motion Tokenizer：该模块负责将高级交流功能（即意图）注入到token化的运动表示中。具体流程是，首先将运动数据进行token化，然后将意图信息与运动token进行融合，最后利用融合后的token进行手势生成。

关键创新：本文最重要的创新点在于将手势生成建模为一个意图推理任务，并提出了Intentional Gesture Motion Tokenizer来显式地将意图信息融入到运动表示中。与以往方法只关注语音或文本等浅层信息不同，本文更加关注手势背后的深层交流意图，从而生成更具语义的手势。

关键设计：在InG数据集中，手势意图是通过大型视觉-语言模型自动标注的，具体使用的模型未知。Intentional Gesture Motion Tokenizer的具体网络结构也未知，但可以推测其可能使用了Transformer或类似的注意力机制来融合意图信息和运动token。损失函数方面，除了常用的运动学损失外，可能还引入了意图相关的损失函数，以保证生成的手势能够准确表达说话者的意图。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

Intentional-Gesture框架在BEAT-2基准测试上取得了新的state-of-the-art性能，证明了其有效性。通过引入意图信息，生成的手势在语义表达方面有了显著提升。具体的性能数据和提升幅度在论文中未明确给出，需要查阅原文。

🎯 应用场景

该研究成果可应用于数字人、虚拟助手、游戏角色等领域，提升人机交互的自然性和表达力。通过生成更具语义和表达力的手势，可以使数字角色更生动、更富有人情味，从而改善用户体验。未来，该技术还可应用于机器人领域，使机器人能够通过手势更有效地与人进行交流。

📄 摘要（原文）

When humans speak, gestures help convey communicative intentions, such as adding emphasis or describing concepts. However, current co-speech gesture generation methods rely solely on superficial linguistic cues (e.g. speech audio or text transcripts), neglecting to understand and leverage the communicative intention that underpins human gestures. This results in outputs that are rhythmically synchronized with speech but are semantically shallow. To address this gap, we introduce Intentional-Gesture, a novel framework that casts gesture generation as an intention-reasoning task grounded in high-level communicative functions. First, we curate the InG dataset by augmenting BEAT-2 with gesture-intention annotations (i.e., text sentences summarizing intentions), which are automatically annotated using large vision-language models. Next, we introduce the Intentional Gesture Motion Tokenizer to leverage these intention annotations. It injects high-level communicative functions (e.g., intentions) into tokenized motion representations to enable intention-aware gesture synthesis that are both temporally aligned and semantically meaningful, achieving new state-of-the-art performance on the BEAT-2 benchmark. Our framework offers a modular foundation for expressive gesture generation in digital humans and embodied AI. Project Page: https://andypinxinliu.github.io/Intentional-Gesture

Intentional Gesture: Deliver Your Intentions with Gestures for Speech

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理