DeepGesture: A conversational gesture synthesis system based on emotions and semantics

📄 arXiv: 2507.03147v2 📥 PDF

作者: Thanh Hoang-Minh

分类: cs.HC, cs.CL, cs.LG, cs.SD, eess.AS

发布日期: 2025-07-03 (更新: 2025-07-14)

备注: Project page: https://deepgesture.github.io


💡 一句话要点

DeepGesture:基于情感和语义的会话手势合成系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手势合成 扩散模型 多模态融合 情感识别 数字人 协同语音手势 语义对齐

📋 核心要点

  1. 现有数字人生成技术在生成与文本或语音自然对应的角色动作方面存在瓶颈,难以实现自然流畅的交流。
  2. DeepGesture提出了一种基于扩散模型的手势合成框架,通过融合文本、语音、情感和种子动作等多模态信息,生成富有表现力的协同语音手势。
  3. 实验表明,DeepGesture在ZeroEGGS数据集上生成的手势具有更好的人类相似性和上下文适当性,并能泛化到分布外的语音。

📝 摘要(中文)

随着大型语言模型的爆发、语音合成的改进、硬件的进步以及计算机图形学的发展,当前创建数字人的瓶颈在于生成与文本或语音输入自然对应的角色动作。本文提出了DeepGesture,一个基于扩散的手势合成框架,用于生成富有表现力的协同语音手势,该框架以多模态信号(文本、语音、情感和种子动作)为条件。DeepGesture建立在DiffuseStyleGesture模型之上,引入了新的架构增强,从而提高了生成手势中的语义对齐和情感表达能力。具体来说,我们集成了快速文本转录作为语义条件,并实现了情感引导的无分类器扩散,以支持跨情感状态的可控手势生成。为了可视化结果,我们在Unity中实现了一个基于模型输出的BVH的完整渲染管线。在ZeroEGGS数据集上的评估表明,DeepGesture生成的手势具有更好的人类相似性和上下文适当性。我们的系统支持情感状态之间的插值,并展示了对分布外语音(包括合成语音)的泛化能力——标志着朝着完全多模态、情感感知的数字人迈出了一步。

🔬 方法详解

问题定义:论文旨在解决数字人生成中,角色动作与输入文本或语音不自然对应的问题。现有方法难以生成具有丰富情感表达和语义对齐的协同语音手势,限制了数字人的真实感和交互性。

核心思路:论文的核心思路是利用扩散模型强大的生成能力,并结合多模态信息(文本、语音、情感、种子动作)作为条件,引导模型生成更自然、更富有表现力的手势。通过情感引导的无分类器扩散,实现对生成手势情感的可控性。

技术框架:DeepGesture建立在DiffuseStyleGesture模型之上,整体架构包含以下几个主要模块:1) 多模态信息编码器:用于提取文本、语音和情感特征。2) 扩散模型:基于编码后的多模态特征和种子动作,逐步生成手势序列。3) 渲染管线:将生成的手势序列转换为可视化的数字人动作。

关键创新:论文的关键创新在于:1) 引入快速文本转录作为语义条件,增强了手势与文本的语义对齐。2) 采用情感引导的无分类器扩散,实现了对生成手势情感的可控性,可以生成不同情感状态下的手势。

关键设计:论文的关键设计包括:1) 使用Transformer网络作为多模态信息编码器,提取文本、语音和情感特征。2) 采用扩散概率模型(DPM)作为手势生成器,通过逐步去噪的方式生成手势序列。3) 设计情感分类器,用于引导扩散过程,控制生成手势的情感表达。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeepGesture在ZeroEGGS数据集上进行了评估,实验结果表明,DeepGesture生成的手势具有更好的人类相似性和上下文适当性。该系统支持情感状态之间的插值,并展示了对分布外语音(包括合成语音)的泛化能力,验证了其在实际应用中的潜力。

🎯 应用场景

DeepGesture可应用于虚拟助手、在线教育、游戏开发、电影制作等领域,提升数字人的真实感和交互性。通过生成自然流畅、富有情感的手势,增强人机交互的沉浸感和用户体验,未来可用于创建更智能、更人性化的数字伙伴。

📄 摘要(原文)

Along with the explosion of large language models, improvements in speech synthesis, advancements in hardware, and the evolution of computer graphics, the current bottleneck in creating digital humans lies in generating character movements that correspond naturally to text or speech inputs. In this work, we present DeepGesture, a diffusion-based gesture synthesis framework for generating expressive co-speech gestures conditioned on multimodal signals - text, speech, emotion, and seed motion. Built upon the DiffuseStyleGesture model, DeepGesture introduces novel architectural enhancements that improve semantic alignment and emotional expressiveness in generated gestures. Specifically, we integrate fast text transcriptions as semantic conditioning and implement emotion-guided classifier-free diffusion to support controllable gesture generation across affective states. To visualize results, we implement a full rendering pipeline in Unity based on BVH output from the model. Evaluation on the ZeroEGGS dataset shows that DeepGesture produces gestures with improved human-likeness and contextual appropriateness. Our system supports interpolation between emotional states and demonstrates generalization to out-of-distribution speech, including synthetic voices - marking a step forward toward fully multimodal, emotionally aware digital humans. Project page: https://deepgesture.github.io