Real-time 3D-aware Portrait Video Relighting

📄 arXiv: 2410.18355v1 📥 PDF

作者: Ziqi Cai, Kaiwen Jiang, Shu-Yu Chen, Yu-Kun Lai, Hongbo Fu, Boxin Shi, Lin Gao

分类: cs.CV, cs.GR

发布日期: 2024-10-24

备注: Accepted to CVPR 2024 (Highlight). Project page: http://geometrylearning.com/VideoRelighting


💡 一句话要点

提出基于NeRF的实时3D人像视频光照重定向方法,实现视角和光照的同步调整。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 人像视频 光照重定向 实时渲染 3D重建

📋 核心要点

  1. 现有光照重定向方法计算成本高昂,或无法同时调整视角,限制了其在实时视频应用中的潜力。
  2. 该方法利用神经辐射场(NeRF)的3D表示能力,结合快速编码器和时间一致性网络,实现实时光照和视角的联合控制。
  3. 实验表明,该方法在重建质量、光照效果和时间稳定性方面均优于现有技术,且推理速度达到32.98 fps。

📝 摘要(中文)

本文提出了一种实时的、3D感知的肖像视频光照重定向方法,用于在自定义光照条件和视角下合成逼真的说话人脸视频,从而服务于视频会议等下游应用。现有的大多数光照重定向方法要么耗时,要么无法调整视角。该方法基于神经辐射场(NeRF),能够以逼真且解耦的3D表示,在新的视角和光照条件下合成说话人脸。具体而言,该方法使用快速双编码器为每个视频帧推断反照率三平面和基于所需光照条件的阴影三平面。此外,还利用时间一致性网络来确保平滑过渡并减少闪烁伪影。该方法在消费级硬件上以32.98 fps的速度运行,并在重建质量、光照误差、光照不稳定性、时间一致性和推理速度方面实现了最先进的结果。在各种具有不同光照和视角条件的肖像视频上验证了该方法的有效性和交互性。

🔬 方法详解

问题定义:现有的光照重定向方法通常计算量大,难以满足实时性需求,或者无法同时调整视角,限制了其在视频会议等交互式应用中的应用。因此,如何在保证重建质量和光照效果的同时,实现实时且可控的3D人像视频光照重定向是一个关键问题。

核心思路:该论文的核心思路是利用神经辐射场(NeRF)的强大3D表示能力,将人脸建模为一个可渲染的3D场景。通过解耦反照率和阴影信息,并使用快速编码器进行推断,可以实现对光照和视角的独立控制,从而在新的光照和视角下合成逼真的人脸图像。

技术框架:该方法主要包含以下几个模块:1) 双编码器:用于快速推断每个视频帧的反照率三平面和阴影三平面。2) 神经辐射场(NeRF):用于将三平面表示渲染成最终的图像。3) 时间一致性网络:用于保证视频帧之间的时间一致性,减少闪烁伪影。整体流程是,首先使用双编码器提取视频帧的反照率和阴影信息,然后将其输入到NeRF中进行渲染,最后通过时间一致性网络进行优化。

关键创新:该方法最重要的技术创新点在于将NeRF与快速编码器和时间一致性网络相结合,实现了实时且可控的3D人像视频光照重定向。与现有方法相比,该方法能够在保证重建质量和光照效果的同时,显著提高推理速度,并支持视角的调整。

关键设计:该方法使用三平面表示来加速NeRF的渲染过程。反照率和阴影信息分别编码到不同的三平面中,从而实现对光照和视角的独立控制。时间一致性网络采用了一种基于光流的损失函数,以保证视频帧之间的时间一致性。此外,该方法还使用了一种自监督学习策略,以减少对训练数据的依赖。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在消费级硬件上实现了32.98 fps的推理速度,显著优于现有的光照重定向方法。在重建质量、光照误差、光照不稳定性、时间一致性等方面,该方法也取得了最先进的结果。与现有方法相比,该方法能够更好地保留人脸的细节,并生成更逼真的光照效果。实验结果表明,该方法在各种具有不同光照和视角条件的肖像视频上都具有良好的泛化能力。

🎯 应用场景

该研究成果可广泛应用于视频会议、虚拟现实、游戏等领域。例如,在视频会议中,用户可以根据自己的喜好调整光照条件和视角,从而获得更舒适的视觉体验。在虚拟现实和游戏中,该方法可以用于创建更逼真的人脸模型,并实现动态的光照效果。此外,该方法还可以用于人脸识别和表情分析等领域。

📄 摘要(原文)

Synthesizing realistic videos of talking faces under custom lighting conditions and viewing angles benefits various downstream applications like video conferencing. However, most existing relighting methods are either time-consuming or unable to adjust the viewpoints. In this paper, we present the first real-time 3D-aware method for relighting in-the-wild videos of talking faces based on Neural Radiance Fields (NeRF). Given an input portrait video, our method can synthesize talking faces under both novel views and novel lighting conditions with a photo-realistic and disentangled 3D representation. Specifically, we infer an albedo tri-plane, as well as a shading tri-plane based on a desired lighting condition for each video frame with fast dual-encoders. We also leverage a temporal consistency network to ensure smooth transitions and reduce flickering artifacts. Our method runs at 32.98 fps on consumer-level hardware and achieves state-of-the-art results in terms of reconstruction quality, lighting error, lighting instability, temporal consistency and inference speed. We demonstrate the effectiveness and interactivity of our method on various portrait videos with diverse lighting and viewing conditions.