Instant Expressive Gaussian Head Avatar via 3D-Aware Expression Distillation

📄 arXiv: 2512.16893v1 📥 PDF

作者: Kaiwen Jiang, Xueting Li, Seonwook Park, Ravi Ramamoorthi, Shalini De Mello, Koki Nagano

分类: cs.CV

发布日期: 2025-12-18

备注: Project website is https://research.nvidia.com/labs/amri/projects/instant4d


💡 一句话要点

提出基于3D感知表达蒸馏的即时高表现力高斯头部头像方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人像动画 3D高斯溅射 表达蒸馏 神经渲染 实时渲染

📋 核心要点

  1. 现有2D人像动画方法在保证3D一致性和速度方面存在不足,限制了其在实时应用中的潜力。
  2. 该论文提出了一种基于3D感知表达蒸馏的方法,将2D扩散模型的知识迁移到3D高斯头部头像,实现快速且富有表现力的动画。
  3. 实验结果表明,该方法在动画质量上与SOTA方法相当,同时实现了107.31 FPS的动画和姿势控制速度。

📝 摘要(中文)

得益于视频扩散模型的最新进展,人像动画的质量得到了显著提升。然而,这些2D方法通常会牺牲3D一致性和速度,从而限制了它们在数字孪生或远程呈现等实际场景中的应用。相比之下,基于显式3D表示(如神经辐射场或高斯溅射)的3D感知面部动画前馈方法,可确保3D一致性并实现更快的推理速度,但表达细节较差。本文旨在结合两者的优势,将知识从基于2D扩散的方法提炼到前馈编码器中,该编码器可立即将野外单张图像转换为3D一致、快速且富有表现力的可动画表示。我们的动画表示与面部的3D表示解耦,并从数据中隐式学习运动,从而消除了对通常限制动画能力的预定义参数模型的依赖。与先前用于融合3D结构和动画信息的计算密集型全局融合机制(例如,多个注意力层)不同,我们的设计采用了一种高效的轻量级局部融合策略,以实现高动画表现力。因此,我们的方法以107.31 FPS的速度运行动画和姿势控制,同时实现了与最先进技术相当的动画质量,超过了在速度和质量之间进行权衡的替代设计。

🔬 方法详解

问题定义:现有基于扩散模型的2D人像动画方法虽然能生成高质量的动画,但在3D一致性和速度上存在瓶颈,难以满足实时应用的需求。而基于3D表示的方法虽然速度快且保证3D一致性,但动画表现力不足,难以捕捉细微的面部表情。

核心思路:该论文的核心思路是将2D扩散模型的表达能力“蒸馏”到基于3D高斯溅射的头部头像中。通过训练一个前馈编码器,将单张图像快速转换为可动画的3D表示,从而兼顾了速度、3D一致性和动画表现力。

技术框架:该方法包含一个前馈编码器,用于将单张图像编码为动画表示。该动画表示与3D人脸结构解耦,并从数据中隐式学习运动规律。为了融合3D结构和动画信息,该方法采用了一种轻量级的局部融合策略。整体流程是从单张图像到动画表示,再到可控制的3D高斯头部头像。

关键创新:该方法的关键创新在于使用表达蒸馏的方式,将2D扩散模型的知识迁移到3D表示中,从而避免了直接训练3D扩散模型的困难。此外,轻量级的局部融合策略在保证动画表现力的同时,显著提升了计算效率。

关键设计:该方法使用高斯溅射作为3D表示,并设计了一种高效的局部融合模块来融合3D结构和动画信息。具体的损失函数和网络结构细节在论文中有详细描述,但摘要中未提及具体参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在动画和姿势控制方面达到了107.31 FPS的速度,同时保持了与最先进方法相当的动画质量。实验结果表明,该方法在速度和质量之间取得了良好的平衡,优于其他需要在两者之间进行权衡的替代方案。项目网站提供了更多实验细节和可视化结果。

🎯 应用场景

该研究成果可广泛应用于数字孪生、远程呈现、虚拟会议、游戏角色动画等领域。它能够快速生成高质量、3D一致且富有表现力的头部头像,为用户提供更逼真、更具沉浸感的交互体验。未来,该技术有望进一步扩展到全身动画,甚至实现个性化的虚拟化身定制。

📄 摘要(原文)

Portrait animation has witnessed tremendous quality improvements thanks to recent advances in video diffusion models. However, these 2D methods often compromise 3D consistency and speed, limiting their applicability in real-world scenarios, such as digital twins or telepresence. In contrast, 3D-aware facial animation feedforward methods -- built upon explicit 3D representations, such as neural radiance fields or Gaussian splatting -- ensure 3D consistency and achieve faster inference speed, but come with inferior expression details. In this paper, we aim to combine their strengths by distilling knowledge from a 2D diffusion-based method into a feed-forward encoder, which instantly converts an in-the-wild single image into a 3D-consistent, fast yet expressive animatable representation. Our animation representation is decoupled from the face's 3D representation and learns motion implicitly from data, eliminating the dependency on pre-defined parametric models that often constrain animation capabilities. Unlike previous computationally intensive global fusion mechanisms (e.g., multiple attention layers) for fusing 3D structural and animation information, our design employs an efficient lightweight local fusion strategy to achieve high animation expressivity. As a result, our method runs at 107.31 FPS for animation and pose control while achieving comparable animation quality to the state-of-the-art, surpassing alternative designs that trade speed for quality or vice versa. Project website is https://research.nvidia.com/labs/amri/projects/instant4d