EmoGene: Audio-Driven Emotional 3D Talking-Head Generation
作者: Wenqing Wang, Yun Fu
分类: cs.CV, cs.AI, cs.HC, cs.LG
发布日期: 2024-10-07 (更新: 2025-05-01)
备注: Accepted by the 2025 IEEE 19th International Conference on Automatic Face and Gesture Recognition (FG)
💡 一句话要点
EmoGene:提出音频驱动的情感3D说话头生成框架,提升情感表达准确性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 音频驱动 说话头生成 情感表达 神经辐射场 变分自编码器
📋 核心要点
- 现有音频驱动的说话头生成方法在图像保真度和唇部同步方面取得了进展,但对生成准确的情感表达关注不足。
- EmoGene的核心思想是利用VAE将音频转换为面部运动,并结合情感嵌入来生成情感化的面部标志点,进而驱动NeRF渲染。
- 实验结果表明,EmoGene在生成高保真情感说话头视频方面,性能优于现有方法,证明了其有效性。
📝 摘要(中文)
本文提出了一种名为EmoGene的新框架,用于合成具有准确情感表达的高保真、音频驱动的视频人像。该方法采用基于变分自编码器(VAE)的音频到运动模块来生成面部标志点,这些标志点与情感嵌入在运动到情感模块中连接,以产生情感标志点。这些标志点驱动基于神经辐射场(NeRF)的情感到视频模块,以渲染逼真的情感说话头视频。此外,我们提出了一种姿势采样方法,用于为无声音频输入生成自然的空闲状态(非说话)视频。大量实验表明,EmoGene在生成高保真情感说话头视频方面优于以前的方法。
🔬 方法详解
问题定义:现有音频驱动的说话头生成方法主要关注唇部同步和图像质量,忽略了情感表达的准确性。缺乏有效的情感建模导致生成的说话头情感表现力不足,难以满足虚拟人交互和电影制作等应用的需求。
核心思路:EmoGene的核心思路是将音频信息、情感信息和面部运动信息进行有效融合,从而生成具有准确情感表达的说话头视频。通过VAE学习音频到面部运动的映射关系,并引入情感嵌入来控制面部表情,最终利用NeRF渲染逼真的视频。
技术框架:EmoGene框架主要包含三个模块:1) 基于VAE的音频到运动模块:将音频输入转换为面部标志点序列。2) 运动到情感模块:将面部标志点序列与情感嵌入结合,生成情感化的面部标志点序列。3) 基于NeRF的情感到视频模块:利用情感化的面部标志点序列驱动NeRF,渲染最终的说话头视频。此外,还包括一个姿势采样模块,用于生成无声状态下的自然视频。
关键创新:EmoGene的关键创新在于:1) 提出了一种将音频、情感和面部运动有效融合的框架,实现了情感可控的说话头生成。2) 利用运动到情感模块,将情感信息融入到面部标志点中,从而更好地控制面部表情。3) 提出了姿势采样方法,解决了无声状态下视频生成的难题。
关键设计:音频到运动模块使用VAE学习音频特征到面部标志点的映射关系,VAE的损失函数包括重构损失和KL散度损失。运动到情感模块将情感嵌入与面部标志点进行拼接,然后通过MLP生成情感化的面部标志点。情感到视频模块使用NeRF进行渲染,NeRF的输入包括视角方向、位置坐标和情感化的面部标志点。姿势采样模块通过对训练数据中的面部姿势进行采样,生成无声状态下的自然姿势。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EmoGene在生成高保真情感说话头视频方面优于现有方法。通过定量评估,EmoGene在情感表达准确性指标上取得了显著提升。定性评估也表明,EmoGene生成的视频在情感表达方面更加自然和逼真。此外,姿势采样方法能够生成自然的空闲状态视频,进一步提升了整体效果。
🎯 应用场景
EmoGene技术可广泛应用于虚拟人交互、电影制作、游戏开发、在线教育等领域。它可以生成具有丰富情感表达的虚拟角色,提升用户体验和互动性。例如,在虚拟客服中,可以根据用户的情绪选择不同的情感表达,从而提供更个性化的服务。在电影制作中,可以生成逼真的数字演员,降低制作成本。
📄 摘要(原文)
Audio-driven talking-head generation is a crucial and useful technology for virtual human interaction and film-making. While recent advances have focused on improving image fidelity and lip synchronization, generating accurate emotional expressions remains underexplored. In this paper, we introduce EmoGene, a novel framework for synthesizing high-fidelity, audio-driven video portraits with accurate emotional expressions. Our approach employs a variational autoencoder (VAE)-based audio-to-motion module to generate facial landmarks, which are concatenated with emotional embedding in a motion-to-emotion module to produce emotional landmarks. These landmarks drive a Neural Radiance Fields (NeRF)-based emotion-to-video module to render realistic emotional talking-head videos. Additionally, we propose a pose sampling method to generate natural idle-state (non-speaking) videos for silent audio inputs. Extensive experiments demonstrate that EmoGene outperforms previous methods in generating high-fidelity emotional talking-head videos.