FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers
作者: Qiang Wang, Mengchao Wang, Fan Jiang, Yaqi Fan, Yonggang Qi, Mu Xu
分类: cs.CV
发布日期: 2025-07-17
备注: https://fantasy-amap.github.io/fantasy-portrait/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出FantasyPortrait,利用表情增强扩散Transformer提升多角色人像动画效果
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 人像动画 扩散模型 Transformer 多角色动画 表情增强 隐式表示 交叉注意力 计算机视觉
📋 核心要点
- 现有方法依赖显式的几何先验,在交叉重演中存在伪影,难以捕捉细微情感,且不支持多角色动画。
- FantasyPortrait利用表情增强学习策略和隐式表示捕捉面部动态,并设计掩码交叉注意力机制实现多角色独立协调的表情生成。
- 实验结果表明,FantasyPortrait在交叉重演和多角色场景中显著优于现有方法,并在Multi-Expr数据集和ExprBench上进行了评估。
📝 摘要(中文)
本文提出FantasyPortrait,一个基于扩散Transformer的框架,旨在为单角色和多角色场景生成高保真、情感丰富的动画。该方法引入了一种表情增强学习策略,利用隐式表示来捕捉与身份无关的面部动态,从而增强模型渲染细微情感的能力。针对多角色控制,设计了一种掩码交叉注意力机制,确保独立且协调的表情生成,有效防止特征干扰。此外,为了推动该领域的研究,我们提出了Multi-Expr数据集和ExprBench,专门用于训练和评估多角色人像动画。大量实验表明,FantasyPortrait在定量指标和定性评估方面均显著优于最先进的方法,尤其是在具有挑战性的交叉重演和多角色环境中表现出色。
🔬 方法详解
问题定义:现有方法在生成人像动画时,依赖于显式的几何先验(如面部标志点或3DMM),这导致在交叉重演(cross reenactment)任务中容易出现伪影。此外,这些方法难以捕捉到细微的情感变化。更重要的是,现有方法通常不支持多角色动画,因为来自不同角色的驱动特征容易相互干扰,使得任务更加复杂。
核心思路:FantasyPortrait的核心思路是利用扩散Transformer框架,并结合表情增强学习策略,来生成高质量的人像动画。通过隐式表示来捕捉与身份无关的面部动态,从而更好地渲染细微的情感。对于多角色动画,则设计了一种掩码交叉注意力机制,以确保各个角色表情生成的独立性和协调性。
技术框架:FantasyPortrait的整体框架基于扩散Transformer。首先,输入静态图像和驱动信号(例如,表情参数)。然后,表情增强模块利用隐式表示学习面部动态。接下来,扩散Transformer根据学习到的面部动态生成动画帧。对于多角色动画,掩码交叉注意力机制用于协调不同角色的表情生成。最后,通过扩散过程逐步优化生成的动画帧。
关键创新:FantasyPortrait的关键创新点在于以下两个方面:一是表情增强学习策略,它利用隐式表示来捕捉与身份无关的面部动态,从而增强模型渲染细微情感的能力。二是掩码交叉注意力机制,它确保了多角色动画中各个角色表情生成的独立性和协调性,有效防止了特征干扰。
关键设计:在表情增强学习策略中,使用了对比学习损失来鼓励模型学习到与身份无关的表情表示。掩码交叉注意力机制通过对不同角色的注意力权重进行掩码,来防止特征干扰。此外,还设计了Multi-Expr数据集和ExprBench,用于训练和评估多角色人像动画模型。具体的网络结构和参数设置在论文中有详细描述,但此处未给出具体数值。
🖼️ 关键图片
📊 实验亮点
FantasyPortrait在Multi-Expr数据集和ExprBench上进行了广泛的实验,结果表明其在定量指标和定性评估方面均显著优于现有方法。尤其是在具有挑战性的交叉重演和多角色场景中,FantasyPortrait的表现尤为出色。具体性能数据和对比基线可在论文中找到,总体而言,该方法在生成质量和情感表达方面均取得了显著提升。
🎯 应用场景
FantasyPortrait技术可应用于虚拟形象生成、电影特效制作、游戏角色动画、社交媒体互动等领域。该技术能够生成更逼真、更具表现力的人像动画,提升用户体验,并为内容创作提供更多可能性。未来,该技术有望应用于实时人像动画生成、个性化教育等领域,具有广阔的应用前景。
📄 摘要(原文)
Producing expressive facial animations from static images is a challenging task. Prior methods relying on explicit geometric priors (e.g., facial landmarks or 3DMM) often suffer from artifacts in cross reenactment and struggle to capture subtle emotions. Furthermore, existing approaches lack support for multi-character animation, as driving features from different individuals frequently interfere with one another, complicating the task. To address these challenges, we propose FantasyPortrait, a diffusion transformer based framework capable of generating high-fidelity and emotion-rich animations for both single- and multi-character scenarios. Our method introduces an expression-augmented learning strategy that utilizes implicit representations to capture identity-agnostic facial dynamics, enhancing the model's ability to render fine-grained emotions. For multi-character control, we design a masked cross-attention mechanism that ensures independent yet coordinated expression generation, effectively preventing feature interference. To advance research in this area, we propose the Multi-Expr dataset and ExprBench, which are specifically designed datasets and benchmarks for training and evaluating multi-character portrait animations. Extensive experiments demonstrate that FantasyPortrait significantly outperforms state-of-the-art methods in both quantitative metrics and qualitative evaluations, excelling particularly in challenging cross reenactment and multi-character contexts. Our project page is https://fantasy-amap.github.io/fantasy-portrait/.