Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

📄 arXiv: 2410.23836v1 📥 PDF

作者: Xiang Deng, Youxin Pang, Xiaochen Zhao, Chao Xu, Lizhen Wang, Hongjiang Xiao, Shi Yan, Hongwen Zhang, Yebin Liu

分类: cs.CV

发布日期: 2024-10-31


💡 一句话要点

Stereo-Talker:提出基于先验引导的混合专家模型,实现高质量音频驱动的3D人体视频合成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频驱动 3D人体合成 大型语言模型 混合专家模型 视频生成 扩散模型 人体姿态 唇音同步

📋 核心要点

  1. 现有音频驱动的人体视频合成方法在生成逼真、同步且具有多样化姿态的3D人体视频方面存在挑战。
  2. Stereo-Talker通过结合大型语言模型先验和混合专家机制,提升了运动质量和渲染稳定性,从而生成更逼真的人体视频。
  3. 该方法在自建的大规模数据集上进行了验证,实验结果表明,Stereo-Talker在唇音同步、姿态表达和视频质量方面均有显著提升。

📝 摘要(中文)

本文提出了一种新颖的单样本音频驱动人体视频合成系统Stereo-Talker,该系统能够生成具有精确唇音同步、富有表现力的身体姿态、时间一致的逼真质量以及连续视点控制的3D说话视频。该过程分为两个阶段。第一阶段,系统将音频输入映射到高保真运动序列,包括上半身姿态和面部表情。为了丰富运动多样性和真实性,将大型语言模型(LLM)先验与文本对齐的语义音频特征相结合,利用LLM的跨模态泛化能力来提高运动质量。第二阶段,通过结合先验引导的混合专家(MoE)机制来改进基于扩散的视频生成模型:一个视点引导的MoE专注于视点特定的属性,而一个掩码引导的MoE增强了基于区域的渲染稳定性。此外,还设计了一个掩码预测模块,用于从运动数据中导出人体掩码,从而提高掩码的稳定性和准确性,并支持推理期间的掩码引导。我们还引入了一个包含2,203个身份的综合人体视频数据集,涵盖了各种身体姿势和详细注释,从而促进了广泛的泛化。代码、数据和预训练模型将发布以供研究。

🔬 方法详解

问题定义:现有音频驱动的人体视频合成方法难以生成高质量、时间一致且具有多样化姿态的3D人体视频。尤其是在唇音同步、身体姿态的自然性和渲染的稳定性方面存在瓶颈。

核心思路:Stereo-Talker的核心思路是利用大型语言模型(LLM)的先验知识来指导运动生成,并采用混合专家(MoE)机制来提升视频渲染的质量和稳定性。通过LLM增强运动的多样性和真实性,并通过MoE机制分别处理视点相关和区域相关的渲染问题。

技术框架:Stereo-Talker包含两个主要阶段:1) 音频到运动的映射:将音频输入映射到高保真运动序列,包括上半身姿态和面部表情。利用LLM先验和文本对齐的语义音频特征来增强运动质量。2) 视频生成:改进基于扩散的视频生成模型,通过先验引导的混合专家(MoE)机制,包括视点引导的MoE和掩码引导的MoE,来提高渲染质量和稳定性。此外,还包含一个掩码预测模块,用于从运动数据中导出人体掩码。

关键创新:该方法的主要创新点在于:1) 引入LLM先验来指导运动生成,提升了运动的多样性和真实性。2) 提出先验引导的混合专家(MoE)机制,分别处理视点相关和区域相关的渲染问题,提高了视频渲染的质量和稳定性。3) 设计了一个掩码预测模块,用于从运动数据中导出人体掩码,增强了掩码的稳定性和准确性。

关键设计:视点引导的MoE专注于视点特定的属性,例如光照和阴影。掩码引导的MoE增强了基于区域的渲染稳定性,例如面部和身体区域。掩码预测模块使用运动数据作为输入,预测人体掩码,并将其用于引导视频生成过程。损失函数的设计未知。

📊 实验亮点

Stereo-Talker在自建的包含2,203个身份的大规模人体视频数据集上进行了评估。实验结果表明,该方法在唇音同步、身体姿态的自然性和视频渲染质量方面均优于现有方法。具体的性能数据和对比基线在论文中进行了详细展示,表明了该方法在音频驱动人体视频合成方面的显著优势。

🎯 应用场景

Stereo-Talker技术可应用于虚拟主播、数字人生成、远程会议、游戏角色定制等领域。该技术能够根据音频输入自动生成逼真的人体视频,极大地降低了内容创作的成本,并提升了用户体验。未来,该技术有望在教育、娱乐、社交等领域得到广泛应用。

📄 摘要(原文)

This paper introduces Stereo-Talker, a novel one-shot audio-driven human video synthesis system that generates 3D talking videos with precise lip synchronization, expressive body gestures, temporally consistent photo-realistic quality, and continuous viewpoint control. The process follows a two-stage approach. In the first stage, the system maps audio input to high-fidelity motion sequences, encompassing upper-body gestures and facial expressions. To enrich motion diversity and authenticity, large language model (LLM) priors are integrated with text-aligned semantic audio features, leveraging LLMs' cross-modal generalization power to enhance motion quality. In the second stage, we improve diffusion-based video generation models by incorporating a prior-guided Mixture-of-Experts (MoE) mechanism: a view-guided MoE focuses on view-specific attributes, while a mask-guided MoE enhances region-based rendering stability. Additionally, a mask prediction module is devised to derive human masks from motion data, enhancing the stability and accuracy of masks and enabling mask guiding during inference. We also introduce a comprehensive human video dataset with 2,203 identities, covering diverse body gestures and detailed annotations, facilitating broad generalization. The code, data, and pre-trained models will be released for research purposes.