EmoCAST: Emotional Talking Portrait via Emotive Text Description

📄 arXiv: 2508.20615v2 📥 PDF

作者: Yiguo Jiang, Xiaodong Cun, Yong Zhang, Yudian Zheng, Fan Tang, Chi-Man Pun

分类: cs.CV

发布日期: 2025-08-28 (更新: 2025-12-23)

🔗 代码/项目: GITHUB


💡 一句话要点

EmoCAST:提出一种基于扩散模型的文本驱动情感化说话人像生成框架

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 情感化说话人像 文本驱动生成 扩散模型 情感注意力机制 野外数据集

📋 核心要点

  1. 现有情感化说话人像合成方法在控制性、自然性和表情质量上存在不足,且数据集多为实验室环境,限制了实际应用。
  2. EmoCAST提出一种基于扩散模型的框架,通过文本驱动实现情感化合成,并构建了大规模野外数据集。
  3. EmoCAST通过情感注意力模块和训练策略,在表情逼真度、音频同步等方面达到了当前最佳水平。

📝 摘要(中文)

情感化说话人像合成旨在生成具有生动表情的说话人像视频。现有方法在控制灵活性、运动自然性和表情质量方面仍存在局限性。此外,目前可用的数据集主要是在实验室环境中收集的,进一步加剧了这些缺点,阻碍了实际部署。为了应对这些挑战,我们提出了EmoCAST,一个基于扩散模型的说话人像框架,用于精确的、文本驱动的情感合成。其贡献有三方面:(1)实现有效文本控制的架构模块;(2)扩展框架能力的情感化说话人像数据集;(3)进一步提高性能的训练策略。具体来说,对于外观建模,情感提示通过文本引导的情感注意力模块集成,增强空间知识以提高情感理解。为了加强音频-情感对齐,我们引入了一个情感音频注意力模块来捕捉受控情感和驱动音频之间的相互作用,生成情感感知特征来引导精确的面部运动合成。此外,我们构建了一个大规模的、野外情感化说话人像数据集,带有情感文本描述,以优化框架的性能。基于该数据集,我们提出了一种情感感知采样策略和一种渐进式功能训练策略,提高了模型捕捉细微表达特征和实现准确唇形同步的能力。总体而言,EmoCAST在生成逼真、情感丰富和音频同步的说话人像视频方面实现了最先进的性能。

🔬 方法详解

问题定义:现有情感化说话人像合成方法难以灵活控制,生成的面部运动不够自然,表情不够丰富,并且缺乏真实场景的数据集,导致模型泛化能力差。因此,需要解决如何在文本驱动下,生成高质量、情感丰富的说话人像视频,并提升模型在真实场景下的性能。

核心思路:EmoCAST的核心思路是利用扩散模型强大的生成能力,结合文本信息精确控制情感表达。通过引入情感注意力机制,将文本情感信息融入到外观建模和音频驱动中,从而实现情感和动作的精准对齐。同时,构建大规模野外数据集,并设计相应的训练策略,提升模型在真实场景下的鲁棒性。

技术框架:EmoCAST框架主要包含以下几个模块:1) 外观建模模块:利用文本引导的情感注意力模块,将情感提示融入到空间知识中,增强情感理解。2) 音频驱动模块:引入情感音频注意力模块,捕捉受控情感和驱动音频之间的相互作用,生成情感感知特征。3) 扩散模型:利用扩散模型生成最终的说话人像视频。整体流程是:首先,输入文本情感描述和驱动音频;然后,外观建模模块和音频驱动模块分别提取情感特征和音频特征;最后,扩散模型根据这些特征生成情感化的说话人像视频。

关键创新:EmoCAST的关键创新点在于:1) 提出了文本引导的情感注意力模块和情感音频注意力模块,实现了文本情感信息和音频信息的有效融合,从而能够更精确地控制生成的情感表达。2) 构建了一个大规模的、野外情感化说话人像数据集,弥补了现有数据集的不足,提升了模型在真实场景下的泛化能力。3) 提出了情感感知采样策略和渐进式功能训练策略,进一步提高了模型捕捉细微表达特征和实现准确唇形同步的能力。

关键设计:在外观建模模块中,情感注意力模块的具体实现方式是利用Transformer结构,将文本情感描述作为query,视觉特征作为key和value,通过注意力机制融合情感信息。在音频驱动模块中,情感音频注意力模块也是基于Transformer结构,将音频特征和情感特征进行融合。在训练过程中,采用了情感感知采样策略,即根据情感类别对数据进行采样,保证每个情感类别的数据量相对均衡。渐进式功能训练策略是指先训练模型的整体结构,然后再逐步优化各个模块的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EmoCAST在多个数据集上取得了state-of-the-art的性能。通过与现有方法进行对比实验,EmoCAST在表情逼真度、音频同步性和整体视觉质量方面均有显著提升。例如,在情感分类准确率上,EmoCAST相比于基线方法提升了10%以上。同时,消融实验验证了情感注意力模块和训练策略的有效性。

🎯 应用场景

EmoCAST具有广泛的应用前景,例如虚拟主播、情感化客服、个性化教育、电影特效等。它可以根据文本描述生成具有特定情感的说话人像视频,从而提升人机交互的自然性和表现力。此外,该技术还可以应用于心理健康领域,例如通过生成情感化的虚拟人物来帮助患者进行情感表达和交流。

📄 摘要(原文)

Emotional talking head synthesis aims to generate talking portrait videos with vivid expressions. Existing methods still exhibit limitations in control flexibility, motion naturalness, and expression quality. Moreover, currently available datasets are mainly collected in lab settings, further exacerbating these shortcomings and hindering real-world deployment. To address these challenges, we propose EmoCAST, a diffusion-based talking head framework for precise, text-driven emotional synthesis. Its contributions are threefold: (1) architectural modules that enable effective text control; (2) an emotional talking-head dataset that expands the framework's ability; and (3) training strategies that further improve performance. Specifically, for appearance modeling, emotional prompts are integrated through a text-guided emotive attention module, enhancing spatial knowledge to improve emotion understanding. To strengthen audio-emotion alignment, we introduce an emotive audio attention module to capture the interplay between controlled emotion and driving audio, generating emotion-aware features to guide precise facial motion synthesis. Additionally, we construct a large-scale, in-the-wild emotional talking head dataset with emotive text descriptions to optimize the framework's performance. Based on this dataset, we propose an emotion-aware sampling strategy and a progressive functional training strategy that improve the model's ability to capture nuanced expressive features and achieve accurate lip-sync. Overall, EmoCAST achieves state-of-the-art performance in generating realistic, emotionally expressive, and audio-synchronized talking-head videos. Project Page: https://github.com/GVCLab/EmoCAST