FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction

作者: Thuan Hoang Nguyen, Jiahao Luo, Yinyu Nie, Hao Li, Gordon Guocheng Qian, Jian Wang

分类: cs.GR, cs.CV, cs.LG

发布日期: 2026-05-14

备注: Project Page: https://ffavatar.github.io

💡 一句话要点

FFAvatar：一种快速、通用且少样本的头像重建方法

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: 头像重建 3D高斯 少样本学习 前馈网络 FLAME模型 多视图融合 实时动画

📋 核心要点

传统头像重建依赖于耗时的个体优化或昂贵的预处理，限制了可扩展性。
FFAvatar通过前馈网络直接从少量图像重建可动画的3D高斯头像，无需耗时的离线FLAME提取。
FFAvatar在NeRSemble基准测试中超越了现有最佳方法LAM，PSNR提升了5.5，并实现了实时动画。

📝 摘要（中文）

FFAvatar是一个通用的前馈框架，它可以在几秒钟内从少量未摆姿势的人像图像中重建高质量、可动画的3D高斯头部头像。FFAvatar通过Multi-View Query-Former将来自多个源图像的信息融合到统一的规范高斯表示中，并通过直接从像素端到端预测的FLAME参数进行动画驱动，消除了离线FLAME提取的开销。该方法提出了一个三阶段的训练课程，实现了广泛的泛化和高保真重建：（i）在超过100万身份的大量单目视频数据上进行可扩展的预训练，以学习强大的通用先验；（ii）在小型但高质量的360度捕捉数据集上进行多视图微调，以增强几何保真度和极端视角感知；（iii）可选的个性化，在500个优化步骤内适应特定身份以获得最大保真度。大量实验表明，FFAvatar为身份保持、几何一致性和动画保真度树立了新标准。在NeRSemble基准测试中，它比最先进的LAM提高了5.5 PSNR。此外，FFAvatar支持实时部署，无需个性化即可在2秒内重建头像，个性化后在10秒内重建头像，同时在单个NVIDIA A100 GPU上支持49 FPS的动画。

🔬 方法详解

问题定义：现有头像重建方法通常需要对每个个体进行优化，计算成本高昂，或者需要复杂的预处理步骤，限制了其可扩展性。这些方法难以在保证重建质量的同时，实现快速且通用的头像重建。

核心思路：FFAvatar的核心思路是利用一个完全前馈的网络结构，直接从少量人像图像中预测可动画的3D高斯头像。通过多视图信息融合和端到端的FLAME参数预测，避免了传统方法的优化过程和预处理步骤，从而实现了快速且通用的重建。

技术框架：FFAvatar的整体框架包含以下几个主要模块：1) Multi-View Query-Former：用于融合来自多个源图像的信息，生成统一的规范高斯表示。2) FLAME参数预测模块：直接从像素预测FLAME参数，用于驱动头像动画。3) 三阶段训练策略：包括大规模单目视频预训练、多视图微调和可选的个性化优化。

关键创新：FFAvatar的关键创新在于其完全前馈的架构和端到端的训练方式。与传统方法相比，FFAvatar无需对每个个体进行优化，也无需进行复杂的预处理，从而实现了快速且通用的头像重建。此外，三阶段训练策略有效地提升了模型的泛化能力和重建质量。

关键设计：Multi-View Query-Former采用Transformer结构，用于融合多视图信息。FLAME参数预测模块使用卷积神经网络。三阶段训练策略中，预训练阶段使用大规模单目视频数据，微调阶段使用高质量的360度捕捉数据，个性化阶段使用特定个体的少量图像。损失函数包括重建损失、FLAME参数损失和正则化损失。

🖼️ 关键图片

📊 实验亮点

FFAvatar在NeRSemble基准测试中取得了显著的性能提升，PSNR比最先进的LAM方法提高了5.5。该方法能够在2秒内完成头像重建（无需个性化），在10秒内完成头像重建（个性化），并且在单个NVIDIA A100 GPU上支持49 FPS的动画，实现了实时部署。

🎯 应用场景

FFAvatar具有广泛的应用前景，包括虚拟会议、游戏、社交媒体、虚拟现实和增强现实等领域。它可以用于快速生成个性化的3D头像，提升用户在虚拟环境中的沉浸感和交互体验。此外，FFAvatar还可以用于创建数字替身，进行远程呈现和虚拟化身等应用。

📄 摘要（原文）

Avatar reconstruction has traditionally relied on per-subject optimization that requires hours of computation or on expensive preprocessing that limits scalability. We introduce FFAvatar, a generalizable feed-forward framework that reconstructs high-quality, animatable 3D Gaussian head avatars from few-shot unposed portrait images in seconds. FFAvatar fuses information from multiple source images into a unified canonical Gaussian representation through Multi-View Query-Former, which is animated via FLAME parameters predicted end-to-end directly from pixels, eliminating the overhead of offline FLAME extraction. We further propose a three-stage training curriculum that achieves both broad generalization and high-fidelity reconstruction: (i) scalable pretraining on extensive monocular video data with over 1M identities to learn strong generalizable priors; (ii) multi-view fine-tuning on a small but high-quality dataset of 360-degree captures to enhance geometric fidelity and extreme-view awareness; and (iii) optional personalization that adapts to specific identities for maximum fidelity within 500 optimization steps. Extensive experiments demonstrate that FFAvatar sets a new standard for identity preservation, geometric consistency, and animation fidelity. On the NeRSemble benchmark, it outperforms the state-of-the-art LAM by a substantial 5.5 PSNR gain. Furthermore, FFAvatar enables real-time deployment, reconstructing avatars in 2 seconds without personalization and 10 seconds with personalization, while supporting 49 FPS animation on a single NVIDIA A100 GPU.

FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理