LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space

📄 arXiv: 2411.09268v2 📥 PDF

作者: Guanwen Feng, Zhihao Qian, Yunan Li, Siyu Jin, Qiguang Miao, Chi-Man Pun

分类: cs.CV

发布日期: 2024-11-14 (更新: 2025-03-08)


💡 一句话要点

提出LES-Talker,实现基于线性情感空间的高精度可控说话人头部生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 说话人头部生成 情感编辑 线性情感空间 面部动作单元 跨维度注意力

📋 核心要点

  1. 现有说话人头部生成模型缺乏高可解释性的细粒度情感编辑能力,难以进行精细的情感控制。
  2. 提出LES-Talker,通过定义线性情感空间(LES)并结合跨维度注意力网络(CDAN)实现细粒度情感编辑。
  3. 实验表明,LES-Talker在视觉质量和情感编辑的精细度上优于主流方法,实现了可解释的多层次情感控制。

📝 摘要(中文)

现有的单样本说话人头部生成模型在粗粒度情感编辑方面取得了一定的进展,但仍然缺乏具有高可解释性的细粒度情感编辑模型。我们认为,一种方法要被认为是细粒度的,它需要提供清晰的定义和足够详细的区分。我们提出了LES-Talker,一种具有高可解释性的新型单样本说话人头部生成模型,以实现跨情感类型、情感等级和面部单元的细粒度情感编辑。我们提出了一种基于面部动作单元的线性情感空间(LES)定义,将情感转换描述为向量转换。我们设计了跨维度注意力网络(CDAN),以深入挖掘LES表示和3D模型表示之间的相关性。通过挖掘不同特征和结构维度之间的多种关系,我们使LES表示能够引导3D模型的可控变形。为了使具有偏差的多模态数据适应LES并提高视觉质量,我们采用了专门的网络设计和训练策略。实验表明,我们的方法提供了高质量的视觉效果以及多层次和可解释的细粒度情感编辑,优于主流方法。

🔬 方法详解

问题定义:现有的一阶说话人头部生成模型在粗粒度情感编辑上有所进展,但缺乏高可解释性的细粒度情感编辑能力。现有方法难以对情感类型、情感等级和面部单元进行精细控制,可解释性不足。

核心思路:论文的核心思路是建立一个线性情感空间(LES),将情感变化表示为向量变换。通过将情感与面部动作单元(Facial Action Units, FAUs)关联,实现情感的可控和可解释编辑。利用跨维度注意力网络(CDAN)学习LES表示和3D模型表示之间的相关性,从而引导3D模型进行可控变形。

技术框架:LES-Talker的整体框架包含以下几个主要模块:1)线性情感空间(LES)定义模块,用于将情感表示为向量;2)跨维度注意力网络(CDAN),用于学习LES表示和3D模型表示之间的相关性;3)3D模型变形模块,用于根据LES表示引导3D模型进行可控变形;4)渲染模块,将变形后的3D模型渲染成最终的说话人头部图像。

关键创新:论文的关键创新在于提出了线性情感空间(LES)的概念,将情感表示为向量,并利用跨维度注意力网络(CDAN)学习LES表示和3D模型表示之间的相关性。这种方法实现了情感编辑的细粒度控制和高可解释性。与现有方法相比,LES-Talker能够更精细地控制情感类型、情感等级和面部单元。

关键设计:LES的构建基于面部动作单元(FAUs),每个情感都由一组FAUs的激活强度表示。CDAN的设计旨在挖掘不同特征和结构维度之间的多种关系,包括特征维度、空间维度和通道维度。损失函数的设计考虑了视觉质量和情感编辑的准确性,包括重建损失、对抗损失和情感损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LES-Talker在视觉质量和情感编辑的精细度上均优于主流方法。通过定量评估和定性比较,证明了LES-Talker能够实现多层次和可解释的细粒度情感编辑。用户研究也表明,LES-Talker生成的情感表达更符合人类的感知。

🎯 应用场景

LES-Talker可应用于虚拟形象定制、情感化人机交互、游戏角色设计、电影特效制作等领域。通过该技术,用户可以精确控制虚拟角色的情感表达,提升用户体验和交互的自然性。未来,该技术有望应用于心理学研究,辅助理解人类情感表达的机制。

📄 摘要(原文)

While existing one-shot talking head generation models have achieved progress in coarse-grained emotion editing, there is still a lack of fine-grained emotion editing models with high interpretability. We argue that for an approach to be considered fine-grained, it needs to provide clear definitions and sufficiently detailed differentiation. We present LES-Talker, a novel one-shot talking head generation model with high interpretability, to achieve fine-grained emotion editing across emotion types, emotion levels, and facial units. We propose a Linear Emotion Space (LES) definition based on Facial Action Units to characterize emotion transformations as vector transformations. We design the Cross-Dimension Attention Net (CDAN) to deeply mine the correlation between LES representation and 3D model representation. Through mining multiple relationships across different feature and structure dimensions, we enable LES representation to guide the controllable deformation of 3D model. In order to adapt the multimodal data with deviations to the LES and enhance visual quality, we utilize specialized network design and training strategies. Experiments show that our method provides high visual quality along with multilevel and interpretable fine-grained emotion editing, outperforming mainstream methods.