Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis

📄 arXiv: 2405.09814v2 📥 PDF

作者: Zeyi Zhang, Tenglong Ao, Yuyao Zhang, Qingzhe Gao, Chuan Lin, Baoquan Chen, Libin Liu

分类: cs.GR, cs.CV, cs.SD, eess.AS

发布日期: 2024-05-16 (更新: 2024-05-17)

备注: SIGGRAPH 2024 (Journal Track); Project page: https://pku-mocca.github.io/Semantic-Gesticulator-Page

期刊: ACM Transactions on Graphics (TOG) 2025

DOI: 10.1145/3658134


💡 一句话要点

Semantic Gesticulator:提出语义感知的语音伴随手势合成框架

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音伴随手势合成 语义手势 生成式检索 大型语言模型 GPT 人机交互 运动捕捉

📋 核心要点

  1. 现有方法难以捕捉语音语义与长尾分布的语义手势之间的关系,导致合成的手势缺乏语义对应性。
  2. Semantic Gesticulator 采用基于大型语言模型的生成式检索框架,从运动库中检索合适的语义手势候选。
  3. 实验结果表明,该系统能够生成节奏连贯且语义明确的手势,并在语义适当性方面优于现有技术。

📝 摘要(中文)

本文提出了一种名为Semantic Gesticulator的新框架,旨在合成具有强语义对应性的逼真语音伴随手势。对于有效的非语言交流而言,具有语义意义的手势至关重要,但这些手势通常位于自然人体运动分布的长尾中。这些运动的稀疏性使得基于深度学习的系统难以捕捉运动与相应语音语义之间的关系,尤其是在中等规模数据集上训练时。为了解决这一挑战,我们开发了一个基于大型语言模型的生成式检索框架,该框架可以有效地从运动库中检索合适的语义手势候选,以响应输入的语音。为了构建这个运动库,我们根据语言学的发现总结了一个常用的语义手势列表,并收集了一个高质量的包含身体和手部运动的运动数据集。我们还设计了一个基于GPT的新型模型,该模型具有强大的音频泛化能力,能够生成与语音节奏相匹配的高质量手势。此外,我们提出了一种语义对齐机制,以有效地将检索到的语义手势与GPT的输出对齐,从而确保最终动画的自然性。我们的系统在生成节奏连贯且语义明确的手势方面表现出鲁棒性,大量的例子证明了这一点。用户研究证实了我们结果的质量和类人程度,并表明我们的系统在语义适当性方面明显优于最先进的系统。

🔬 方法详解

问题定义:现有语音驱动的手势生成方法难以生成具有明确语义的手势,尤其是在处理长尾分布的语义手势时,由于数据稀疏性,模型难以学习到语音和手势之间的准确映射关系。这导致生成的手势缺乏语义信息,影响了非语言交流的有效性。

核心思路:Semantic Gesticulator 的核心思路是利用大型语言模型强大的语义理解能力,结合检索式方法,从预定义的运动库中选择与输入语音语义最匹配的语义手势。同时,利用生成式模型生成与语音节奏同步的手势,并通过语义对齐机制将两者融合,从而生成既具有语义信息又自然流畅的语音伴随手势。

技术框架:Semantic Gesticulator 的整体框架包含以下几个主要模块:1) 语义手势运动库构建:基于语言学研究,整理常用的语义手势列表,并收集高质量的包含身体和手部运动的数据集。2) 基于大型语言模型的语义手势检索:利用大型语言模型对输入语音进行语义分析,并从运动库中检索最相关的语义手势候选。3) 基于 GPT 的手势生成:设计基于 GPT 的模型,根据输入语音生成与语音节奏同步的手势。4) 语义对齐:提出语义对齐机制,将检索到的语义手势与 GPT 生成的手势进行对齐,确保最终动画的自然性。

关键创新:该论文的关键创新在于:1) 提出了基于生成式检索的框架,有效解决了长尾语义手势的合成问题。2) 构建了高质量的语义手势运动库,为语义手势合成提供了数据基础。3) 设计了语义对齐机制,保证了检索到的语义手势与生成的手势之间的自然过渡。

关键设计:在运动库构建方面,论文根据语言学研究,总结了常用的语义手势列表,并收集了包含身体和手部运动的高质量数据集。在语义对齐方面,具体的技术细节(如损失函数、网络结构等)在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

用户研究表明,Semantic Gesticulator 生成的手势在质量和类人程度上表现出色,并在语义适当性方面明显优于现有技术。具体性能数据和提升幅度在摘要中没有明确给出,属于未知信息。但用户主观评价表明该方法在语义相关性上具有显著优势。

🎯 应用场景

Semantic Gesticulator 可应用于虚拟助手、游戏角色动画、在线教育、人机交互等领域。通过生成具有语义信息的自然手势,可以增强虚拟角色的表现力,提高人机交互的自然性和效率,从而改善用户体验。该研究的未来影响在于推动更自然、更具表现力的人机交互方式的发展。

📄 摘要(原文)

In this work, we present Semantic Gesticulator, a novel framework designed to synthesize realistic gestures accompanying speech with strong semantic correspondence. Semantically meaningful gestures are crucial for effective non-verbal communication, but such gestures often fall within the long tail of the distribution of natural human motion. The sparsity of these movements makes it challenging for deep learning-based systems, trained on moderately sized datasets, to capture the relationship between the movements and the corresponding speech semantics. To address this challenge, we develop a generative retrieval framework based on a large language model. This framework efficiently retrieves suitable semantic gesture candidates from a motion library in response to the input speech. To construct this motion library, we summarize a comprehensive list of commonly used semantic gestures based on findings in linguistics, and we collect a high-quality motion dataset encompassing both body and hand movements. We also design a novel GPT-based model with strong generalization capabilities to audio, capable of generating high-quality gestures that match the rhythm of speech. Furthermore, we propose a semantic alignment mechanism to efficiently align the retrieved semantic gestures with the GPT's output, ensuring the naturalness of the final animation. Our system demonstrates robustness in generating gestures that are rhythmically coherent and semantically explicit, as evidenced by a comprehensive collection of examples. User studies confirm the quality and human-likeness of our results, and show that our system outperforms state-of-the-art systems in terms of semantic appropriateness by a clear margin.