Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars

📄 arXiv: 2502.20220v2 📥 PDF

作者: Tobias Kirschstein, Javier Romero, Artem Sevastopolsky, Matthias Nießner, Shunsuke Saito

分类: cs.CV

发布日期: 2025-02-27 (更新: 2025-09-15)

备注: Project website: https://tobias-kirschstein.github.io/avat3r/, Video: https://youtu.be/P3zNVx15gYs

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Avat3r:基于高斯重建的大型可动画3D头部Avatar模型,仅需少量输入图像。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D头部建模 可动画Avatar 高斯重建 深度学习 人脸重建

📋 核心要点

  1. 传统方法需要多视角捕捉设备和昂贵的测试时优化,限制了数字替身的应用范围。
  2. Avat3r通过学习3D人头先验,并结合位置图和广义特征图,实现了高质量的头部重建。
  3. 实验表明,Avat3r在少输入和单输入场景下均优于现有方法,并能处理各种输入源。

📝 摘要(中文)

本文提出Avat3r,它仅需少量输入图像即可回归高质量且可动画的3D头部avatar,大幅降低了推理时的计算需求。Avat3r使大型重建模型可动画,并从大型多视角视频数据集中学习了强大的3D人头先验。为了更好地进行3D头部重建,Avat3r采用了DUSt3R的位置图和来自人类基础模型Sapiens的广义特征图。关键发现是,对表情代码的简单交叉注意力就足以实现头部动画。通过在训练期间向模型输入具有不同表情的图像,提高了模型的鲁棒性,从而能够从不一致的输入(例如,意外移动导致的不完美的手机拍摄或单目视频帧)重建3D头部avatar。与当前最先进的少输入和单输入方法相比,Avat3r在这两项任务中都具有竞争优势。最后,展示了该模型的广泛适用性,可以从不同来源的图像、智能手机拍摄、单张图像,甚至领域外输入(如古董半身像)创建3D头部avatar。

🔬 方法详解

问题定义:现有方法创建逼真3D头部avatar需要昂贵的多视角捕捉设备和耗时的优化过程,限制了其在VFX行业或离线渲染之外的应用。尤其是在移动端或单目视频等资源受限的场景下,难以快速生成高质量的3D头部模型。

核心思路:Avat3r的核心思路是利用大型数据集学习3D人头的先验知识,并结合位置图和广义特征图来提升重建质量。通过可微分高斯光栅化实现快速渲染,并使用简单的交叉注意力机制实现头部动画。

技术框架:Avat3r包含以下主要模块:1) 图像编码器:提取输入图像的特征。2) 3D高斯参数预测器:基于图像特征预测3D高斯分布的参数,用于表示头部形状和外观。3) 头部姿态和表情编码器:提取头部姿态和表情信息。4) 可微分高斯渲染器:将3D高斯分布渲染成图像。5) 交叉注意力模块:将表情编码融入到高斯参数中,实现动画效果。

关键创新:Avat3r的关键创新在于:1) 将大型重建模型与可动画机制相结合,实现了快速且高质量的3D头部avatar生成。2) 使用DUSt3R的位置图和Sapiens的广义特征图来提升重建质量。3) 通过简单的交叉注意力机制实现了可控的头部动画。4) 通过训练时输入不同表情的图像,增强了模型的鲁棒性,使其能够处理不一致的输入。

关键设计:Avat3r使用可微分高斯光栅化进行渲染,损失函数包括重建损失、正则化损失等。网络结构基于Transformer,使用交叉注意力机制将表情编码融入到高斯参数中。训练数据来自大型多视角视频数据集,包含各种头部姿态和表情。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Avat3r在少输入和单输入场景下均取得了优异的性能。与现有方法相比,Avat3r能够生成更高质量、更逼真的3D头部avatar。实验结果表明,Avat3r在重建精度和动画效果方面均优于现有方法,并且能够处理各种输入源,包括智能手机拍摄的图像和单张图像。

🎯 应用场景

Avat3r在虚拟现实、增强现实、游戏、社交媒体等领域具有广泛的应用前景。它可以用于创建个性化的3D头像,用于虚拟会议、在线教育、虚拟试穿等场景。此外,Avat3r还可以用于数字替身、虚拟助手等应用,为用户提供更加沉浸式的体验。

📄 摘要(原文)

Traditionally, creating photo-realistic 3D head avatars requires a studio-level multi-view capture setup and expensive optimization during test-time, limiting the use of digital human doubles to the VFX industry or offline renderings. To address this shortcoming, we present Avat3r, which regresses a high-quality and animatable 3D head avatar from just a few input images, vastly reducing compute requirements during inference. More specifically, we make Large Reconstruction Models animatable and learn a powerful prior over 3D human heads from a large multi-view video dataset. For better 3D head reconstructions, we employ position maps from DUSt3R and generalized feature maps from the human foundation model Sapiens. To animate the 3D head, our key discovery is that simple cross-attention to an expression code is already sufficient. Finally, we increase robustness by feeding input images with different expressions to our model during training, enabling the reconstruction of 3D head avatars from inconsistent inputs, e.g., an imperfect phone capture with accidental movement, or frames from a monocular video. We compare Avat3r with current state-of-the-art methods for few-input and single-input scenarios, and find that our method has a competitive advantage in both tasks. Finally, we demonstrate the wide applicability of our proposed model, creating 3D head avatars from images of different sources, smartphone captures, single images, and even out-of-domain inputs like antique busts. Project website: https://tobias-kirschstein.github.io/avat3r/