Motion-example-controlled Co-speech Gesture Generation Leveraging Large Language Models

📄 arXiv: 2507.20220v1 📥 PDF

作者: Bohong Chen, Yumeng Li, Youyi Zheng, Yao-Xiang Ding, Kun Zhou

分类: cs.CV

发布日期: 2025-07-27

备注: SIGGRAPH 2025; Project Page: https://robinwitch.github.io/MECo-Page

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出MECo框架,利用大语言模型实现运动示例控制的伴随语音手势生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 伴随语音手势生成 大语言模型 运动示例控制 手势合成 人机交互

📋 核心要点

  1. 现有伴随语音手势生成方法难以兼顾手势控制和保留原始运动示例的细节。
  2. MECo框架通过微调LLM,将运动示例作为显式查询上下文,指导手势生成。
  3. 实验表明,MECo在FGD、运动多样性和示例-手势相似性三个指标上均达到SOTA。

📝 摘要(中文)

本文提出了一种名为MECo的框架,该框架利用大型语言模型(LLMs)实现运动示例控制的伴随语音手势生成。现有系统通常通过预定义的类别标签或从运动示例中导出的隐式伪标签来实现手势控制,但这些方法往往会牺牲原始运动示例中丰富的细节。MECo通过微调LLM,使其能够同时理解语音音频和运动示例,从而合成既能保留示例特定特征又能保持与语音一致的手势。与传统的伪标签范式不同,我们将运动示例定位为提示结构中的显式查询上下文,以指导手势生成。实验结果表明,该方法在三个指标上均达到了最先进的性能:Fréchet手势距离(FGD)、运动多样性和示例-手势相似性。此外,我们的框架能够对身体的各个部位进行精细控制,并适应包括运动片段、静态姿势、人体视频序列和文本描述在内的多种输入模态。代码、预训练模型和视频可在https://robinwitch.github.io/MECo-Page获取。

🔬 方法详解

问题定义:现有伴随语音手势生成方法,如基于预定义类别标签或隐式伪标签的方法,无法充分保留原始运动示例中的细节信息,导致生成的手势缺乏个性化特征,与示例动作的相似度较低。此外,如何有效利用运动示例来控制手势生成是一个挑战。

核心思路:本文的核心思路是将运动示例作为LLM的显式查询上下文,通过微调LLM,使其能够同时理解语音音频和运动示例,从而生成既能保持与语音一致性,又能保留示例特定特征的手势。这种方法避免了使用伪标签,直接利用原始运动数据的信息。

技术框架:MECo框架主要包含以下几个阶段:1) 数据预处理:对语音音频和运动示例进行处理,使其能够被LLM理解。2) Prompt构建:将语音音频和运动示例构建成LLM的输入prompt,其中运动示例作为显式查询上下文。3) LLM微调:使用预处理后的数据对LLM进行微调,使其能够根据prompt生成手势。4) 手势生成:使用微调后的LLM,根据输入的语音音频和运动示例生成手势序列。

关键创新:最重要的技术创新点在于将运动示例作为LLM的显式查询上下文,并利用LLM的理解能力来指导手势生成。与现有方法相比,MECo避免了使用伪标签,直接利用原始运动数据的信息,从而能够生成更具个性化特征的手势。此外,MECo框架能够处理多种输入模态,包括运动片段、静态姿势、人体视频序列和文本描述。

关键设计:在prompt构建方面,论文设计了特定的prompt模板,将语音音频和运动示例以特定的格式输入LLM。在LLM微调方面,使用了合适的损失函数来优化LLM的生成能力,例如,可以使用L1损失或L2损失来衡量生成手势与目标手势之间的差异。具体的网络结构和参数设置在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MECo框架在Fréchet手势距离(FGD)、运动多样性和示例-手势相似性三个指标上均达到了最先进的性能。具体的数据和对比基线在论文中给出,但此处未提供详细数值。重要的是,MECo能够生成更具个性化特征的手势,并能够对身体的各个部位进行精细控制。

🎯 应用场景

MECo框架可应用于虚拟形象生成、人机交互、游戏开发、虚拟现实等领域。通过提供运动示例,用户可以定制虚拟角色的手势,使其更具个性化和表现力。该技术还可以用于辅助残疾人进行交流,例如,将文本描述转换为手势动画,帮助他们表达情感和意图。未来,该技术有望应用于更广泛的领域,例如,教育、娱乐和医疗保健。

📄 摘要(原文)

The automatic generation of controllable co-speech gestures has recently gained growing attention. While existing systems typically achieve gesture control through predefined categorical labels or implicit pseudo-labels derived from motion examples, these approaches often compromise the rich details present in the original motion examples. We present MECo, a framework for motion-example-controlled co-speech gesture generation by leveraging large language models (LLMs). Our method capitalizes on LLMs' comprehension capabilities through fine-tuning to simultaneously interpret speech audio and motion examples, enabling the synthesis of gestures that preserve example-specific characteristics while maintaining speech congruence. Departing from conventional pseudo-labeling paradigms, we position motion examples as explicit query contexts within the prompt structure to guide gesture generation. Experimental results demonstrate state-of-the-art performance across three metrics: Fréchet Gesture Distance (FGD), motion diversity, and example-gesture similarity. Furthermore, our framework enables granular control of individual body parts and accommodates diverse input modalities including motion clips, static poses, human video sequences, and textual descriptions. Our code, pre-trained models, and videos are available at https://robinwitch.github.io/MECo-Page.