FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction
作者: Thuan Hoang Nguyen, Jiahao Luo, Yinyu Nie, Hao Li, Gordon Guocheng Qian, Jian Wang
分类: cs.GR, cs.CV, cs.LG
发布日期: 2026-05-14
备注: Project Page: https://ffavatar.github.io
💡 一句话要点
FFAvatar:一种快速、通用且少样本的头像重建方法
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 头像重建 3D高斯 少样本学习 前馈网络 FLAME模型 多视图融合 实时动画
📋 核心要点
- 传统头像重建依赖于耗时的个体优化或昂贵的预处理,限制了可扩展性。
- FFAvatar通过前馈网络直接从少量图像重建可动画的3D高斯头像,无需耗时的离线FLAME提取。
- FFAvatar在NeRSemble基准测试中超越了现有最佳方法LAM,PSNR提升了5.5,并实现了实时动画。
📝 摘要(中文)
FFAvatar是一个通用的前馈框架,它可以在几秒钟内从少量未摆姿势的人像图像中重建高质量、可动画的3D高斯头部头像。FFAvatar通过Multi-View Query-Former将来自多个源图像的信息融合到统一的规范高斯表示中,并通过直接从像素端到端预测的FLAME参数进行动画驱动,消除了离线FLAME提取的开销。该方法提出了一个三阶段的训练课程,实现了广泛的泛化和高保真重建:(i)在超过100万身份的大量单目视频数据上进行可扩展的预训练,以学习强大的通用先验;(ii)在小型但高质量的360度捕捉数据集上进行多视图微调,以增强几何保真度和极端视角感知;(iii)可选的个性化,在500个优化步骤内适应特定身份以获得最大保真度。大量实验表明,FFAvatar为身份保持、几何一致性和动画保真度树立了新标准。在NeRSemble基准测试中,它比最先进的LAM提高了5.5 PSNR。此外,FFAvatar支持实时部署,无需个性化即可在2秒内重建头像,个性化后在10秒内重建头像,同时在单个NVIDIA A100 GPU上支持49 FPS的动画。
🔬 方法详解
问题定义:现有头像重建方法通常需要对每个个体进行优化,计算成本高昂,或者需要复杂的预处理步骤,限制了其可扩展性。这些方法难以在保证重建质量的同时,实现快速且通用的头像重建。
核心思路:FFAvatar的核心思路是利用一个完全前馈的网络结构,直接从少量人像图像中预测可动画的3D高斯头像。通过多视图信息融合和端到端的FLAME参数预测,避免了传统方法的优化过程和预处理步骤,从而实现了快速且通用的重建。
技术框架:FFAvatar的整体框架包含以下几个主要模块:1) Multi-View Query-Former:用于融合来自多个源图像的信息,生成统一的规范高斯表示。2) FLAME参数预测模块:直接从像素预测FLAME参数,用于驱动头像动画。3) 三阶段训练策略:包括大规模单目视频预训练、多视图微调和可选的个性化优化。
关键创新:FFAvatar的关键创新在于其完全前馈的架构和端到端的训练方式。与传统方法相比,FFAvatar无需对每个个体进行优化,也无需进行复杂的预处理,从而实现了快速且通用的头像重建。此外,三阶段训练策略有效地提升了模型的泛化能力和重建质量。
关键设计:Multi-View Query-Former采用Transformer结构,用于融合多视图信息。FLAME参数预测模块使用卷积神经网络。三阶段训练策略中,预训练阶段使用大规模单目视频数据,微调阶段使用高质量的360度捕捉数据,个性化阶段使用特定个体的少量图像。损失函数包括重建损失、FLAME参数损失和正则化损失。
🖼️ 关键图片
📊 实验亮点
FFAvatar在NeRSemble基准测试中取得了显著的性能提升,PSNR比最先进的LAM方法提高了5.5。该方法能够在2秒内完成头像重建(无需个性化),在10秒内完成头像重建(个性化),并且在单个NVIDIA A100 GPU上支持49 FPS的动画,实现了实时部署。
🎯 应用场景
FFAvatar具有广泛的应用前景,包括虚拟会议、游戏、社交媒体、虚拟现实和增强现实等领域。它可以用于快速生成个性化的3D头像,提升用户在虚拟环境中的沉浸感和交互体验。此外,FFAvatar还可以用于创建数字替身,进行远程呈现和虚拟化身等应用。
📄 摘要(原文)
Avatar reconstruction has traditionally relied on per-subject optimization that requires hours of computation or on expensive preprocessing that limits scalability. We introduce FFAvatar, a generalizable feed-forward framework that reconstructs high-quality, animatable 3D Gaussian head avatars from few-shot unposed portrait images in seconds. FFAvatar fuses information from multiple source images into a unified canonical Gaussian representation through Multi-View Query-Former, which is animated via FLAME parameters predicted end-to-end directly from pixels, eliminating the overhead of offline FLAME extraction. We further propose a three-stage training curriculum that achieves both broad generalization and high-fidelity reconstruction: (i) scalable pretraining on extensive monocular video data with over 1M identities to learn strong generalizable priors; (ii) multi-view fine-tuning on a small but high-quality dataset of 360-degree captures to enhance geometric fidelity and extreme-view awareness; and (iii) optional personalization that adapts to specific identities for maximum fidelity within 500 optimization steps. Extensive experiments demonstrate that FFAvatar sets a new standard for identity preservation, geometric consistency, and animation fidelity. On the NeRSemble benchmark, it outperforms the state-of-the-art LAM by a substantial 5.5 PSNR gain. Furthermore, FFAvatar enables real-time deployment, reconstructing avatars in 2 seconds without personalization and 10 seconds with personalization, while supporting 49 FPS animation on a single NVIDIA A100 GPU.