FLAP: Fully-controllable Audio-driven Portrait Video Generation through 3D head conditioned diffusion model

作者: Lingzhou Mu, Baiji Liu, Ruonan Zhang, Guiming Mo, Jiawei Jin, Kai Zhang, Haozhi Huang

分类: cs.GR

发布日期: 2025-02-26 (更新: 2025-04-23)

💡 一句话要点

FLAP：通过3D头部条件扩散模型实现完全可控的音频驱动人像视频生成

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 音频驱动 人像视频生成 3D头部模型 扩散模型 可控生成

📋 核心要点

现有音频驱动人像视频生成方法可控性差，难以满足电影制作、电商直播等实际应用需求。
FLAP将3D头部姿势和面部表情参数融入扩散模型，实现端到端的可控人像视频生成。
实验表明，FLAP在自然性和可控性上优于现有方法，并能灵活集成现有3D头部生成技术。

📝 摘要（中文）

基于扩散的视频生成技术显著提升了零样本说话头像的生成效果，增强了头部运动和面部表情的自然性。然而，现有方法的可控性较差，使其在电影制作和电商直播等实际场景中的应用受限。为了解决这一局限性，我们提出了一种名为FLAP的新方法，该方法将显式的3D中间参数（头部姿势和面部表情）集成到扩散模型中，用于端到端地生成逼真的人像视频。所提出的架构允许模型从音频生成生动的人像视频，同时结合额外的控制信号，例如头部旋转角度和眨眼频率。此外，头部姿势和面部表情的解耦允许对每个进行独立控制，从而可以精确地操纵头像的姿势和面部表情。我们还展示了其与现有3D头部生成方法集成的灵活性，弥合了基于3D模型的方法和端到端扩散技术之间的差距。大量实验表明，我们的方法在自然性和可控性方面均优于最近的音频驱动人像视频模型。

🔬 方法详解

问题定义：现有音频驱动人像视频生成方法在可控性方面存在明显不足。用户难以精确控制生成视频中人物的头部姿势、面部表情等关键要素，限制了其在需要精细化控制的实际场景中的应用，例如电影制作和电商直播。现有方法通常难以解耦头部姿势和面部表情，导致控制单一要素时会影响其他要素，进一步降低了可控性。

核心思路：FLAP的核心思路是将显式的3D中间参数（头部姿势和面部表情）作为条件信息融入到扩散模型中。通过直接控制这些3D参数，可以实现对生成视频中人物姿态和表情的精确控制。这种方法将生成过程分解为可控的3D参数生成和基于3D参数的视频生成两个阶段，从而提高了整体的可控性。

技术框架：FLAP的整体框架包含以下几个主要模块：1) 音频特征提取模块：用于从输入音频中提取相关的语音特征。2) 3D头部参数预测模块：基于音频特征预测3D头部姿势和面部表情参数。3) 扩散模型：以音频特征和3D头部参数为条件，生成人像视频。该扩散模型采用U-Net结构，并引入了注意力机制以增强生成效果。4) 3D头部生成模块（可选）：可以集成现有的3D头部生成方法，为扩散模型提供更精确的3D头部参数。

关键创新：FLAP最重要的技术创新点在于将显式的3D中间参数融入到扩散模型中，实现了对人像视频生成过程的精细化控制。与现有方法相比，FLAP能够独立控制头部姿势和面部表情，避免了相互干扰。此外，FLAP还具有良好的可扩展性，可以方便地集成现有的3D头部生成技术，进一步提升生成效果。

关键设计：在3D头部参数预测模块中，使用了多层感知机（MLP）来预测头部姿势和面部表情参数。扩散模型采用U-Net结构，并引入了自注意力机制和交叉注意力机制，分别用于增强图像的局部一致性和全局一致性。损失函数包括L1损失、L2损失和感知损失，用于优化生成视频的质量和真实感。此外，还设计了专门的损失函数来约束3D头部参数的准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FLAP在自然性和可控性方面均优于现有的音频驱动人像视频生成模型。通过定量评估，FLAP在FID（Fréchet Inception Distance）和LPIPS（Learned Perceptual Image Patch Similarity）等指标上取得了显著提升，表明生成的视频具有更高的真实感和视觉质量。此外，用户研究也表明，FLAP生成的视频在头部运动和面部表情的自然度方面更受用户认可。

🎯 应用场景

FLAP在多个领域具有广泛的应用前景，包括电影制作（创建逼真的数字角色）、电商直播（生成与主播声音同步的虚拟形象）、虚拟现实/增强现实（创建个性化的虚拟化身）以及游戏开发（生成具有丰富表情和动作的角色）。该技术能够显著降低人像视频制作的成本和难度，并为用户提供更大的创作自由。

📄 摘要（原文）

Diffusion-based video generation techniques have significantly improved zero-shot talking-head avatar generation, enhancing the naturalness of both head motion and facial expressions. However, existing methods suffer from poor controllability, making them less applicable to real-world scenarios such as filmmaking and live streaming for e-commerce. To address this limitation, we propose FLAP, a novel approach that integrates explicit 3D intermediate parameters (head poses and facial expressions) into the diffusion model for end-to-end generation of realistic portrait videos. The proposed architecture allows the model to generate vivid portrait videos from audio while simultaneously incorporating additional control signals, such as head rotation angles and eye-blinking frequency. Furthermore, the decoupling of head pose and facial expression allows for independent control of each, offering precise manipulation of both the avatar's pose and facial expressions. We also demonstrate its flexibility in integrating with existing 3D head generation methods, bridging the gap between 3D model-based approaches and end-to-end diffusion techniques. Extensive experiments show that our method outperforms recent audio-driven portrait video models in both naturalness and controllability.

FLAP: Fully-controllable Audio-driven Portrait Video Generation through 3D head conditioned diffusion model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理