Cosh-DiT: Co-Speech Gesture Video Synthesis via Hybrid Audio-Visual Diffusion Transformers
作者: Yasheng Sun, Zhiliang Xu, Hang Zhou, Jiazhi Guan, Quanwei Yang, Kaisiyuan Wang, Borong Liang, Yingying Li, Haocheng Feng, Jingdong Wang, Ziwei Liu, Koike Hideki
分类: cs.CV
发布日期: 2025-03-13
备注: Project Page: https://sunyasheng.github.io/projects/COSH-DIT
💡 一句话要点
提出Cosh-DiT,通过混合扩散Transformer实现逼真的语音驱动手势视频合成
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 语音驱动手势合成 扩散Transformer 离散扩散模型 连续扩散模型 VQ-VAE 视频生成 多模态学习
📋 核心要点
- 现有语音驱动手势合成方法难以兼顾手势的概率建模和逼真图像的生成,尤其是在捕捉语音节奏的细微差别方面。
- Cosh-DiT的核心在于使用混合扩散Transformer,分别处理音频到动作的离散扩散建模和动作到视频的连续扩散建模,从而解耦并优化两个过程。
- 实验结果表明,Cosh-DiT能够生成逼真的视频,其面部表情富有表现力,手势自然流畅,并且与语音高度同步。
📝 摘要(中文)
本文提出了一种名为Cosh-DiT的语音驱动手势视频合成系统,该系统采用混合扩散Transformer,分别使用离散和连续扩散建模执行音频到动作和动作到视频的合成。首先,引入音频扩散Transformer (Cosh-DiT-A) 来合成与语音节奏同步的富有表现力的手势动态。为了捕捉上半身、面部和手部运动的先验知识,我们采用矢量量化变分自编码器 (VQ-VAEs) 在离散潜在空间中联合学习它们之间的依赖关系。然后,为了在生成的语音驱动运动的基础上进行逼真的视频合成,我们设计了一个视觉扩散Transformer (Cosh-DiT-V),它可以有效地整合空间和时间上下文。大量实验表明,我们的框架能够持续生成逼真的视频,其中包含富有表现力的面部表情和自然流畅的手势,并且与语音无缝对齐。
🔬 方法详解
问题定义:语音驱动的手势视频合成旨在根据给定的语音信号生成与之对应的逼真手势视频。现有的方法通常难以同时保证手势的自然性和与语音的同步性,尤其是在捕捉语音节奏的细微变化并生成高质量的视频图像方面存在挑战。
核心思路:Cosh-DiT的核心思路是将语音驱动手势视频合成任务分解为两个阶段:首先,将语音转换为手势动作;然后,将手势动作转换为逼真的视频。这种分解允许针对每个阶段使用最合适的扩散模型,从而提高整体合成质量。
技术框架:Cosh-DiT包含两个主要的Transformer模块:Cosh-DiT-A (Audio Diffusion Transformer) 和 Cosh-DiT-V (Visual Diffusion Transformer)。Cosh-DiT-A负责将音频转换为手势动作,它使用离散扩散模型和VQ-VAE来学习手势的潜在表示。Cosh-DiT-V负责将手势动作转换为逼真的视频,它使用连续扩散模型并整合空间和时间上下文信息。
关键创新:Cosh-DiT的关键创新在于使用了混合扩散Transformer架构,即针对音频到动作的转换采用离散扩散模型,而针对动作到视频的转换采用连续扩散模型。这种混合方法能够更好地适应不同模态数据的特性,从而提高合成质量。此外,使用VQ-VAE来学习手势的潜在表示也有助于捕捉手势的复杂性和多样性。
关键设计:Cosh-DiT-A使用VQ-VAE将手势动作编码到离散潜在空间中,然后使用扩散Transformer学习从音频到离散潜在码的映射。Cosh-DiT-V使用U-Net架构的扩散Transformer,以手势动作为条件生成视频帧。损失函数包括扩散模型的训练损失以及VQ-VAE的重建损失。
🖼️ 关键图片
📊 实验亮点
论文通过大量实验验证了Cosh-DiT的有效性。实验结果表明,Cosh-DiT能够生成逼真的视频,其面部表情富有表现力,手势自然流畅,并且与语音高度同步。相较于现有方法,Cosh-DiT在手势的自然性和与语音的同步性方面均有显著提升。具体的性能数据和对比基线信息在原文中可以找到。
🎯 应用场景
Cosh-DiT在虚拟助手、游戏角色动画、远程会议和个性化视频生成等领域具有广泛的应用前景。它可以用于创建更具表现力和互动性的虚拟角色,提升用户体验。此外,该技术还可以用于辅助残疾人士进行交流,例如将语音转换为手语视频。
📄 摘要(原文)
Co-speech gesture video synthesis is a challenging task that requires both probabilistic modeling of human gestures and the synthesis of realistic images that align with the rhythmic nuances of speech. To address these challenges, we propose Cosh-DiT, a Co-speech gesture video system with hybrid Diffusion Transformers that perform audio-to-motion and motion-to-video synthesis using discrete and continuous diffusion modeling, respectively. First, we introduce an audio Diffusion Transformer (Cosh-DiT-A) to synthesize expressive gesture dynamics synchronized with speech rhythms. To capture upper body, facial, and hand movement priors, we employ vector-quantized variational autoencoders (VQ-VAEs) to jointly learn their dependencies within a discrete latent space. Then, for realistic video synthesis conditioned on the generated speech-driven motion, we design a visual Diffusion Transformer (Cosh-DiT-V) that effectively integrates spatial and temporal contexts. Extensive experiments demonstrate that our framework consistently generates lifelike videos with expressive facial expressions and natural, smooth gestures that align seamlessly with speech.