DifFRelight: Diffusion-Based Facial Performance Relighting
作者: Mingming He, Pascal Clausen, Ahmet Levent Taşel, Li Ma, Oliver Pilarski, Wenqi Xian, Laszlo Rikker, Xueming Yu, Ryan Burgert, Ning Yu, Paul Debevec
分类: cs.CV, cs.AI, cs.GR
发布日期: 2024-10-10
备注: 18 pages, SIGGRAPH Asia 2024 Conference Papers (SA Conference Papers '24), December 3--6, 2024, Tokyo, Japan. Project page: https://www.eyelinestudios.com/research/diffrelight.html
💡 一句话要点
提出基于扩散模型的面部表演重打光框架,实现自由视点下的高保真光照控制
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 面部重打光 扩散模型 图像到图像转换 自由视点渲染 动态3D高斯溅射
📋 核心要点
- 现有面部重打光方法难以在保持高保真度的同时,实现对复杂光照效果的精确控制,尤其是在动态表演场景下。
- 该论文提出了一种基于扩散模型的图像转换框架,通过学习特定对象在不同光照下的表现,实现精确的光照控制和高质量的重打光效果。
- 实验结果表明,该方法能够准确再现复杂的照明效果,如眼睛反射、次表面散射等,并在各种面部表情下保持细节特征。
📝 摘要(中文)
本文提出了一种新颖的基于扩散的图像到图像转换框架,用于自由视点面部表演重打光。利用包含各种光照条件(包括平光和单灯(OLAT)场景)下捕获的各种面部表情的特定对象数据集,我们训练了一个扩散模型,以实现精确的光照控制,从而能够从平光输入生成高保真重打光面部图像。我们的框架包括平光捕获和随机噪声的空间对齐调节,以及用于全局控制的集成光照信息,利用了预训练的Stable Diffusion模型的先验知识。然后,该模型应用于在一致的平光环境中捕获的动态面部表演,并使用可扩展的动态3D高斯溅射方法重建,以保持重打光结果的质量和一致性。此外,我们通过将新的区域光照表示与定向光照集成,引入了统一的光照控制,从而可以联合调整光照大小和方向。我们还支持使用多个定向光进行高动态范围成像 (HDRI) 合成,以生成复杂光照条件下的动态序列。我们的评估表明,该模型在实现精确的光照控制和推广到各种面部表情的同时,保留了皮肤纹理和头发等详细特征方面的效率。该模型准确地再现了复杂的照明效果,如眼睛反射、次表面散射、自阴影和半透明,从而提高了我们框架内的照片真实感。
🔬 方法详解
问题定义:现有面部重打光方法在处理动态面部表演时,难以兼顾光照控制的精确性和渲染结果的真实感。尤其是在复杂的照明条件下,例如多光源、高动态范围等,现有方法往往难以准确地模拟光照效果,导致渲染结果不真实。此外,现有方法在处理不同面部表情时,可能会出现细节丢失或光照不一致的问题。
核心思路:该论文的核心思路是利用扩散模型强大的生成能力,学习特定对象在不同光照条件下的表现,从而实现精确的光照控制和高质量的重打光效果。通过将平光图像和光照信息作为扩散模型的输入,模型可以生成在目标光照条件下的面部图像。这种方法可以有效地利用预训练模型的先验知识,并能够处理复杂的光照效果。
技术框架:该框架主要包含以下几个模块:1) 数据集构建:构建包含各种面部表情和光照条件(包括平光和单灯OLAT)的特定对象数据集。2) 扩散模型训练:使用构建的数据集训练一个扩散模型,该模型以平光图像和光照信息作为输入,生成在目标光照条件下的面部图像。3) 动态表演重建:使用可扩展的动态3D高斯溅射方法重建动态面部表演,并使用训练好的扩散模型进行重打光。4) 光照控制:引入统一的光照控制方法,可以联合调整光照大小和方向,并支持使用多个定向光进行高动态范围成像 (HDRI) 合成。
关键创新:该论文的关键创新点在于:1) 将扩散模型应用于面部重打光任务,利用扩散模型强大的生成能力,实现了精确的光照控制和高质量的渲染效果。2) 引入了统一的光照控制方法,可以联合调整光照大小和方向,并支持高动态范围成像 (HDRI) 合成。3) 使用可扩展的动态3D高斯溅射方法重建动态面部表演,保证了重打光结果的质量和一致性。
关键设计:在扩散模型训练过程中,使用了空间对齐的平光图像和随机噪声作为条件输入,并集成了光照信息进行全局控制。此外,利用了预训练的Stable Diffusion模型的先验知识,加速了模型训练并提高了渲染质量。在光照控制方面,引入了一种新的区域光照表示,可以与定向光照进行集成,实现更灵活的光照调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够准确再现复杂的照明效果,如眼睛反射、次表面散射等,并在各种面部表情下保持细节特征。与现有方法相比,该方法在光照控制的精确性和渲染结果的真实感方面都有显著提升。此外,该方法还能够处理高动态范围成像 (HDRI) 合成,生成更加逼真的光照效果。
🎯 应用场景
该研究成果可广泛应用于电影特效、游戏制作、虚拟现实、人机交互等领域。例如,可以用于在后期制作中调整演员的面部光照,使其与场景光照更加协调。也可以用于在游戏中创建更加逼真的人物角色。此外,该技术还可以应用于虚拟会议、远程教育等场景,提高用户的沉浸感和体验。
📄 摘要(原文)
We present a novel framework for free-viewpoint facial performance relighting using diffusion-based image-to-image translation. Leveraging a subject-specific dataset containing diverse facial expressions captured under various lighting conditions, including flat-lit and one-light-at-a-time (OLAT) scenarios, we train a diffusion model for precise lighting control, enabling high-fidelity relit facial images from flat-lit inputs. Our framework includes spatially-aligned conditioning of flat-lit captures and random noise, along with integrated lighting information for global control, utilizing prior knowledge from the pre-trained Stable Diffusion model. This model is then applied to dynamic facial performances captured in a consistent flat-lit environment and reconstructed for novel-view synthesis using a scalable dynamic 3D Gaussian Splatting method to maintain quality and consistency in the relit results. In addition, we introduce unified lighting control by integrating a novel area lighting representation with directional lighting, allowing for joint adjustments in light size and direction. We also enable high dynamic range imaging (HDRI) composition using multiple directional lights to produce dynamic sequences under complex lighting conditions. Our evaluations demonstrate the models efficiency in achieving precise lighting control and generalizing across various facial expressions while preserving detailed features such as skintexture andhair. The model accurately reproduces complex lighting effects like eye reflections, subsurface scattering, self-shadowing, and translucency, advancing photorealism within our framework.