Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

作者: Xiang Deng, Youxin Pang, Xiaochen Zhao, Chao Xu, Lizhen Wang, Hongjiang Xiao, Shi Yan, Hongwen Zhang, Yebin Liu

分类: cs.CV

发布日期: 2024-10-31

💡 一句话要点

Stereo-Talker：提出基于先验引导的混合专家模型，实现高质量音频驱动的3D人体视频合成。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频驱动 3D人体合成 大型语言模型 混合专家模型 视频生成 扩散模型 人体姿态 唇音同步

📋 核心要点

现有音频驱动的人体视频合成方法在生成逼真、同步且具有多样化姿态的3D人体视频方面存在挑战。
Stereo-Talker通过结合大型语言模型先验和混合专家机制，提升了运动质量和渲染稳定性，从而生成更逼真的人体视频。
该方法在自建的大规模数据集上进行了验证，实验结果表明，Stereo-Talker在唇音同步、姿态表达和视频质量方面均有显著提升。

📝 摘要（中文）

本文提出了一种新颖的单样本音频驱动人体视频合成系统Stereo-Talker，该系统能够生成具有精确唇音同步、富有表现力的身体姿态、时间一致的逼真质量以及连续视点控制的3D说话视频。该过程分为两个阶段。第一阶段，系统将音频输入映射到高保真运动序列，包括上半身姿态和面部表情。为了丰富运动多样性和真实性，将大型语言模型（LLM）先验与文本对齐的语义音频特征相结合，利用LLM的跨模态泛化能力来提高运动质量。第二阶段，通过结合先验引导的混合专家（MoE）机制来改进基于扩散的视频生成模型：一个视点引导的MoE专注于视点特定的属性，而一个掩码引导的MoE增强了基于区域的渲染稳定性。此外，还设计了一个掩码预测模块，用于从运动数据中导出人体掩码，从而提高掩码的稳定性和准确性，并支持推理期间的掩码引导。我们还引入了一个包含2,203个身份的综合人体视频数据集，涵盖了各种身体姿势和详细注释，从而促进了广泛的泛化。代码、数据和预训练模型将发布以供研究。

🔬 方法详解

问题定义：现有音频驱动的人体视频合成方法难以生成高质量、时间一致且具有多样化姿态的3D人体视频。尤其是在唇音同步、身体姿态的自然性和渲染的稳定性方面存在瓶颈。

核心思路：Stereo-Talker的核心思路是利用大型语言模型（LLM）的先验知识来指导运动生成，并采用混合专家（MoE）机制来提升视频渲染的质量和稳定性。通过LLM增强运动的多样性和真实性，并通过MoE机制分别处理视点相关和区域相关的渲染问题。

技术框架：Stereo-Talker包含两个主要阶段：1) 音频到运动的映射：将音频输入映射到高保真运动序列，包括上半身姿态和面部表情。利用LLM先验和文本对齐的语义音频特征来增强运动质量。2) 视频生成：改进基于扩散的视频生成模型，通过先验引导的混合专家（MoE）机制，包括视点引导的MoE和掩码引导的MoE，来提高渲染质量和稳定性。此外，还包含一个掩码预测模块，用于从运动数据中导出人体掩码。

关键创新：该方法的主要创新点在于：1) 引入LLM先验来指导运动生成，提升了运动的多样性和真实性。2) 提出先验引导的混合专家（MoE）机制，分别处理视点相关和区域相关的渲染问题，提高了视频渲染的质量和稳定性。3) 设计了一个掩码预测模块，用于从运动数据中导出人体掩码，增强了掩码的稳定性和准确性。

关键设计：视点引导的MoE专注于视点特定的属性，例如光照和阴影。掩码引导的MoE增强了基于区域的渲染稳定性，例如面部和身体区域。掩码预测模块使用运动数据作为输入，预测人体掩码，并将其用于引导视频生成过程。损失函数的设计未知。

📊 实验亮点

Stereo-Talker在自建的包含2,203个身份的大规模人体视频数据集上进行了评估。实验结果表明，该方法在唇音同步、身体姿态的自然性和视频渲染质量方面均优于现有方法。具体的性能数据和对比基线在论文中进行了详细展示，表明了该方法在音频驱动人体视频合成方面的显著优势。

🎯 应用场景

Stereo-Talker技术可应用于虚拟主播、数字人生成、远程会议、游戏角色定制等领域。该技术能够根据音频输入自动生成逼真的人体视频，极大地降低了内容创作的成本，并提升了用户体验。未来，该技术有望在教育、娱乐、社交等领域得到广泛应用。

📄 摘要（原文）

This paper introduces Stereo-Talker, a novel one-shot audio-driven human video synthesis system that generates 3D talking videos with precise lip synchronization, expressive body gestures, temporally consistent photo-realistic quality, and continuous viewpoint control. The process follows a two-stage approach. In the first stage, the system maps audio input to high-fidelity motion sequences, encompassing upper-body gestures and facial expressions. To enrich motion diversity and authenticity, large language model (LLM) priors are integrated with text-aligned semantic audio features, leveraging LLMs' cross-modal generalization power to enhance motion quality. In the second stage, we improve diffusion-based video generation models by incorporating a prior-guided Mixture-of-Experts (MoE) mechanism: a view-guided MoE focuses on view-specific attributes, while a mask-guided MoE enhances region-based rendering stability. Additionally, a mask prediction module is devised to derive human masks from motion data, enhancing the stability and accuracy of masks and enabling mask guiding during inference. We also introduce a comprehensive human video dataset with 2,203 identities, covering diverse body gestures and detailed annotations, facilitating broad generalization. The code, data, and pre-trained models will be released for research purposes.

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理