DNF-Avatar: Distilling Neural Fields for Real-time Animatable Avatar Relighting
作者: Zeren Jiang, Shaofei Wang, Siyu Tang
分类: cs.CV
发布日期: 2025-04-14 (更新: 2025-08-19)
备注: 17 pages, 9 figures, ICCV 2025 Findings Oral, Project pages: https://jzr99.github.io/DNF-Avatar/
💡 一句话要点
提出DNF-Avatar,通过知识蒸馏实现实时可重光照的动画Avatar
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 神经场 高斯溅射 知识蒸馏 Avatar重建 实时渲染
📋 核心要点
- 现有基于神经场的Avatar方法渲染速度慢,主要瓶颈在于PBR渲染中耗时的蒙特卡洛光线追踪。
- 本文提出知识蒸馏框架,将隐式神经场的知识迁移到显式2D高斯溅射,利用其快速光栅化特性加速渲染。
- 实验表明,该方法在保持重光照质量的同时,推理速度提升370倍,达到67FPS,实现了实时渲染。
📝 摘要(中文)
本文提出了一种从单目视频创建可重光照和动画人体Avatar的方法。现有方法利用神经场和基于物理的渲染(PBR)来估计几何形状并解耦人体Avatar的外观属性,但由于蒙特卡洛光线追踪的计算成本,渲染速度较慢。为了解决这个问题,本文提出将知识从隐式神经场(教师模型)提炼到显式2D高斯溅射(学生模型)表示,以利用高斯溅射的快速光栅化特性。为了避免光线追踪,我们采用split-sum近似进行PBR外观渲染。此外,我们还提出了新的分段环境光遮蔽探针用于阴影计算。阴影预测通过每次像素仅查询一次这些探针来实现,从而为Avatar的实时重光照铺平了道路。这些技术结合在一起,可以产生具有逼真阴影效果的高质量重光照结果。实验表明,所提出的学生模型实现了与教师模型相当甚至更好的重光照结果,同时推理速度提高了370倍,达到了67 FPS的渲染速度。
🔬 方法详解
问题定义:本文旨在解决从单目视频重建的可重光照动画Avatar渲染速度慢的问题。现有基于神经场的方法虽然能较好地解耦几何和外观属性,并实现高质量的重光照效果,但由于需要进行大量的蒙特卡洛光线追踪,渲染速度难以满足实时应用的需求。
核心思路:本文的核心思路是将隐式神经场作为教师模型,显式2D高斯溅射作为学生模型,通过知识蒸馏的方式,将教师模型学习到的几何和外观信息迁移到学生模型。利用高斯溅射的快速光栅化特性,避免耗时的光线追踪,从而加速渲染过程。
技术框架:该方法主要包含两个阶段:教师模型训练和学生模型蒸馏。首先,利用神经场和PBR渲染训练教师模型,学习Avatar的几何和外观属性。然后,将教师模型的输出(如法线、粗糙度、反照率等)作为监督信号,训练学生模型(2D高斯溅射)。为了实现实时阴影效果,还提出了分段环境光遮蔽探针。整体流程为:单目视频输入 -> 教师模型训练 -> 学生模型蒸馏 -> 实时渲染。
关键创新:本文的关键创新在于:1) 将知识蒸馏引入到Avatar渲染领域,利用显式表示加速渲染;2) 采用split-sum近似进行PBR外观渲染,避免了光线追踪;3) 提出了分段环境光遮蔽探针,实现了实时阴影效果。与现有方法相比,本文的方法在保证重光照质量的同时,显著提高了渲染速度。
关键设计:在学生模型中,每个高斯分布包含位置、协方差、颜色、不透明度等参数。损失函数包括L1损失、感知损失等,用于约束学生模型的输出与教师模型尽可能一致。分段环境光遮蔽探针的设计考虑了人体不同部位的遮蔽情况,提高了阴影的真实感。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的学生模型在重光照质量上与教师模型相当甚至更好,同时推理速度提高了370倍,达到了67 FPS的渲染速度。这表明该方法在保证渲染质量的同时,显著提高了渲染效率,实现了实时可重光照的动画Avatar。
🎯 应用场景
该研究成果可广泛应用于虚拟现实、增强现实、体育、视频游戏等领域。例如,用户可以在VR/AR环境中创建自己的虚拟化身,并实时调整光照,获得更逼真的体验。在体育和视频游戏中,可以创建更真实的角色模型,提升游戏体验。该技术还有潜力应用于远程会议、虚拟试衣等场景,具有重要的实际价值和广阔的应用前景。
📄 摘要(原文)
Creating relightable and animatable human avatars from monocular videos is a rising research topic with a range of applications, e.g. virtual reality, sports, and video games. Previous works utilize neural fields together with physically based rendering (PBR), to estimate geometry and disentangle appearance properties of human avatars. However, one drawback of these methods is the slow rendering speed due to the expensive Monte Carlo ray tracing. To tackle this problem, we proposed to distill the knowledge from implicit neural fields (teacher) to explicit 2D Gaussian splatting (student) representation to take advantage of the fast rasterization property of Gaussian splatting. To avoid ray-tracing, we employ the split-sum approximation for PBR appearance. We also propose novel part-wise ambient occlusion probes for shadow computation. Shadow prediction is achieved by querying these probes only once per pixel, which paves the way for real-time relighting of avatars. These techniques combined give high-quality relighting results with realistic shadow effects. Our experiments demonstrate that the proposed student model achieves comparable or even better relighting results with our teacher model while being 370 times faster at inference time, achieving a 67 FPS rendering speed.