LightAvatar: Efficient Head Avatar as Dynamic Neural Light Field
作者: Huan Wang, Feitong Tan, Ziqian Bai, Yinda Zhang, Shichen Liu, Qiangeng Xu, Menglei Chai, Anish Prabhu, Rohit Pandey, Sean Fanello, Zeng Huang, Yun Fu
分类: cs.CV
发布日期: 2024-09-26 (更新: 2024-11-07)
备注: ECCV'24 CADL Workshop. Code: https://github.com/MingSun-Tse/LightAvatar-TensorFlow. V2: Corrected speed benchmark with GaussianAvatar
💡 一句话要点
LightAvatar:基于动态神经光场的实时高效头部Avatar模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 头部Avatar 神经光场 实时渲染 蒸馏训练 3DMM NeLF Warping Field
📋 核心要点
- 基于NeRF的头部Avatar渲染速度慢,难以在资源受限的设备上应用,是当前面临的核心问题。
- LightAvatar基于神经光场,通过单次网络前向传播实现图像渲染,避免了NeRF的密集点采样。
- 实验表明,LightAvatar在图像质量上达到SOTA,并在RTX3090上实现了174.1 FPS的渲染速度。
📝 摘要(中文)
本文提出LightAvatar,一种基于神经光场(NeLF)的头部Avatar模型,旨在解决基于神经辐射场(NeRF)的Avatar渲染速度慢的问题。LightAvatar通过单次网络前向传播,从3DMM参数和相机姿态渲染图像,无需网格或体渲染。为了实现实时效率和训练稳定性,论文设计了专用网络结构以获得合适的NeLF表示,并控制FLOPs预算。同时,采用基于蒸馏的训练策略,使用预训练的Avatar模型作为教师,合成大量伪数据进行训练。引入一个Warping Field网络来校正真实数据中的拟合误差。实验结果表明,该方法在图像质量上达到了新的SOTA,同时速度显著提升,在消费级GPU(RTX3090)上实现了174.1 FPS(512x512分辨率),且没有进行定制优化。
🔬 方法详解
问题定义:现有基于NeRF的头部Avatar模型,虽然渲染质量高,但由于NeRF需要进行密集的点采样和体渲染,导致渲染速度慢,难以在移动设备或实时应用中使用。因此,需要一种更高效的头部Avatar渲染方法,能够在保证渲染质量的同时,显著提升渲染速度。
核心思路:LightAvatar的核心思路是使用神经光场(NeLF)来表示头部Avatar。与NeRF不同,NeLF直接学习从3DMM参数和相机姿态到图像的映射,避免了NeRF的体渲染过程,从而显著提升渲染速度。此外,通过专门的网络设计和蒸馏训练策略,保证了NeLF模型的渲染质量和训练稳定性。
技术框架:LightAvatar的整体框架包括以下几个主要模块:1) 3DMM参数和相机姿态输入;2) NeLF生成模块,该模块通过一个神经网络将3DMM参数和相机姿态映射到图像;3) Warping Field网络,用于校正真实数据中的拟合误差;4) 蒸馏训练模块,使用预训练的Avatar模型作为教师,生成伪数据进行训练。
关键创新:LightAvatar最重要的技术创新点在于使用神经光场(NeLF)来表示头部Avatar,并设计了专门的网络结构和训练策略来保证NeLF模型的渲染质量和训练稳定性。与基于NeRF的方法相比,LightAvatar避免了体渲染过程,从而显著提升了渲染速度。此外,Warping Field网络和蒸馏训练策略也提高了模型的渲染质量。
关键设计:LightAvatar的关键设计包括:1) 专门设计的网络结构,用于生成合适的NeLF表示,并控制FLOPs预算;2) 基于蒸馏的训练策略,使用预训练的Avatar模型作为教师,生成大量伪数据进行训练;3) Warping Field网络,用于校正真实数据中的拟合误差。具体的网络结构和损失函数细节在论文中有详细描述,但摘要中未提供具体参数。
🖼️ 关键图片
📊 实验亮点
LightAvatar在图像质量上达到了新的SOTA,同时速度显著提升。在消费级GPU(RTX3090)上,LightAvatar实现了174.1 FPS(512x512分辨率)的渲染速度,且没有进行定制优化。这表明LightAvatar在效率方面具有显著优势,使其更适合实时应用。
🎯 应用场景
LightAvatar具有广泛的应用前景,例如虚拟会议、游戏、社交媒体、虚拟现实和增强现实等领域。它可以用于创建逼真的虚拟化身,提升用户体验。由于其高效的渲染速度,LightAvatar特别适合在移动设备和资源受限的环境中使用。未来,该技术有望进一步发展,实现更高质量、更个性化的虚拟化身。
📄 摘要(原文)
Recent works have shown that neural radiance fields (NeRFs) on top of parametric models have reached SOTA quality to build photorealistic head avatars from a monocular video. However, one major limitation of the NeRF-based avatars is the slow rendering speed due to the dense point sampling of NeRF, preventing them from broader utility on resource-constrained devices. We introduce LightAvatar, the first head avatar model based on neural light fields (NeLFs). LightAvatar renders an image from 3DMM parameters and a camera pose via a single network forward pass, without using mesh or volume rendering. The proposed approach, while being conceptually appealing, poses a significant challenge towards real-time efficiency and training stability. To resolve them, we introduce dedicated network designs to obtain proper representations for the NeLF model and maintain a low FLOPs budget. Meanwhile, we tap into a distillation-based training strategy that uses a pretrained avatar model as teacher to synthesize abundant pseudo data for training. A warping field network is introduced to correct the fitting error in the real data so that the model can learn better. Extensive experiments suggest that our method can achieve new SOTA image quality quantitatively or qualitatively, while being significantly faster than the counterparts, reporting 174.1 FPS (512x512 resolution) on a consumer-grade GPU (RTX3090) with no customized optimization.