Think-Before-Draw: Decomposing Emotion Semantics & Fine-Grained Controllable Expressive Talking Head Generation
作者: Hanlei Shi, Leyuan Qu, Yu Liu, Di Gao, Yuhua Zheng, Taihao Li
分类: cs.CV, cs.AI
发布日期: 2025-07-17
💡 一句话要点
提出Think-Before-Draw框架,实现基于文本驱动的细粒度可控情感表达的 talking head 生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感 talking-head 生成 文本驱动 思维链 面部肌肉运动 微表情优化
📋 核心要点
- 现有文本驱动的情感 talking-head 生成方法依赖离散情感标签,无法捕捉面部肌肉运动的复杂性,导致表情不自然。
- Think-Before-Draw 框架利用思维链(CoT)将抽象情感标签转化为具体的面部肌肉运动描述,实现语义到动作的映射。
- 该方法采用渐进式引导去噪策略,模拟艺术家绘画过程,通过全局情感定位和局部肌肉控制优化微表情,实验结果SOTA。
📝 摘要(中文)
情感 talking-head 生成是计算机视觉和多模态人工智能交叉领域的重要研究方向,其核心价值在于通过沉浸式和共情互动增强人机交互。随着多模态大型语言模型的发展,情感 talking-head 生成的驱动信号已从音频和视频转向更灵活的文本。然而,当前基于文本的方法依赖于预定义的离散情感标签文本,过度简化了真实面部肌肉运动的动态复杂性,因此无法实现自然的表情表达。本研究提出了 Think-Before-Draw 框架,以解决两个关键挑战:(1)情感的深入语义解析——通过创新性地引入思维链(CoT),将抽象的情感标签转化为生理学上基于面部肌肉运动的描述,从而实现从高层语义到可操作运动特征的映射;(2)细粒度的表达优化——受到艺术家肖像绘画过程的启发,提出了一种渐进式引导去噪策略,采用“全局情感定位——局部肌肉控制”机制来细化生成视频中的微表情动态。实验表明,该方法在广泛使用的基准数据集 MEAD 和 HDTF 上实现了最先进的性能。此外,我们还收集了一组肖像图像来评估我们模型的零样本生成能力。
🔬 方法详解
问题定义:论文旨在解决文本驱动的情感 talking-head 生成中,由于现有方法过度依赖离散情感标签而导致的表情不自然问题。现有方法无法充分捕捉面部肌肉运动的复杂性和细微差别,使得生成的情感表达缺乏真实感和自然性。
核心思路:论文的核心思路是将抽象的情感标签分解为具体的、生理学上可解释的面部肌肉运动描述。通过引入思维链(CoT),模型能够推理出与特定情感相关的面部肌肉活动,从而实现从高层语义到低层动作特征的映射。此外,借鉴艺术家绘画过程,采用渐进式引导去噪策略,逐步优化微表情,提升生成视频的真实感。
技术框架:Think-Before-Draw 框架包含以下主要模块:1) 情感语义解析模块:利用思维链(CoT)将文本情感标签分解为面部肌肉运动描述。2) 全局情感定位模块:根据情感语义解析的结果,初步确定面部表情的整体轮廓。3) 局部肌肉控制模块:在全局情感定位的基础上,精细调整面部肌肉运动,优化微表情。4) 视频生成模块:将面部肌肉运动信息转化为最终的 talking-head 视频。
关键创新:该论文最重要的技术创新点在于引入了思维链(CoT)进行情感语义解析,将抽象的情感标签转化为具体的面部肌肉运动描述。这与现有方法直接使用离散情感标签或简单的情感向量作为驱动信号有着本质区别,使得模型能够更好地理解情感的内在机制,从而生成更自然、更富有表现力的 talking-head 视频。
关键设计:论文的关键设计包括:1) CoT Prompt设计:设计合适的 CoT prompt,引导模型生成准确的面部肌肉运动描述。2) 渐进式引导去噪策略:采用多阶段的去噪过程,逐步优化面部表情的细节。3) 损失函数设计:设计合适的损失函数,鼓励模型生成真实、自然的表情,并保持视频的流畅性。具体的参数设置和网络结构细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Think-Before-Draw 框架在 MEAD 和 HDTF 等基准数据集上取得了 state-of-the-art 的性能。相较于现有方法,该方法生成的情感 talking-head 视频在表情的自然度和真实感方面有显著提升。此外,该模型还展现出良好的零样本生成能力,能够处理未见过的肖像图像。
🎯 应用场景
该研究成果可广泛应用于虚拟助手、情感陪伴机器人、在线教育、游戏角色设计等领域。通过生成更具表现力和情感的 talking-head 视频,可以显著提升人机交互的沉浸感和用户体验。未来,该技术有望在心理健康辅导、远程医疗等领域发挥重要作用,实现更具同理心和个性化的服务。
📄 摘要(原文)
Emotional talking-head generation has emerged as a pivotal research area at the intersection of computer vision and multimodal artificial intelligence, with its core value lying in enhancing human-computer interaction through immersive and empathetic engagement.With the advancement of multimodal large language models, the driving signals for emotional talking-head generation has shifted from audio and video to more flexible text. However, current text-driven methods rely on predefined discrete emotion label texts, oversimplifying the dynamic complexity of real facial muscle movements and thus failing to achieve natural emotional expressiveness.This study proposes the Think-Before-Draw framework to address two key challenges: (1) In-depth semantic parsing of emotions--by innovatively introducing Chain-of-Thought (CoT), abstract emotion labels are transformed into physiologically grounded facial muscle movement descriptions, enabling the mapping from high-level semantics to actionable motion features; and (2) Fine-grained expressiveness optimization--inspired by artists' portrait painting process, a progressive guidance denoising strategy is proposed, employing a "global emotion localization--local muscle control" mechanism to refine micro-expression dynamics in generated videos.Our experiments demonstrate that our approach achieves state-of-the-art performance on widely-used benchmarks, including MEAD and HDTF. Additionally, we collected a set of portrait images to evaluate our model's zero-shot generation capability.