PIXLRelight: Controllable Relighting via Intrinsic Conditioning

📄 arXiv: 2605.18735v1 📥 PDF

作者: Miguel Farinha, Ronald Clark

分类: cs.CV, cs.GR, cs.LG

发布日期: 2026-05-18

备注: Project page: https://mlfarinha.github.io/pixl-relight/. Under review

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

PIXLRelight:提出基于内参条件的单图可控光照重打方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 光照重打 单图渲染 物理渲染 神经渲染 Transformer网络 内参分解 图像合成

📋 核心要点

  1. 现有光照重打方法在光照控制、误差累积和计算效率方面存在局限性,难以实现高质量的实时光照调整。
  2. PIXLRelight通过内参条件将PBR和学习的图像合成相结合,利用反照率、阴影等信息引导光照重打。
  3. 该方法实现了任意PBR风格的光照控制,在光照重打质量上达到SOTA,且推理速度快,每张图小于0.1秒。

📝 摘要(中文)

本文提出PIXLRelight,一种用于物理可控单图像光照重打的前馈方法。现有方法要么提供有限的光照控制(例如,通过文本或环境贴图),要么在链接逆向和正向渲染时累积误差,要么需要昂贵的逐图像优化。我们的关键思想是通过共享的内参条件来桥接基于物理的渲染(PBR)和学习的图像合成,该内参条件可以从真实照片或PBR渲染中获得。在训练时,配对的多光照照片被分解为反照率、漫反射阴影和非漫反射残差,这些用于调节模型。在推理时,相同的条件是从用户指定PBR光照下输入粗糙3D重建的路径追踪渲染计算得出的。然后,基于Transformer的神经渲染器将目标光照应用于源照片,通过逐像素仿射调制保留精细的图像细节。PIXLRelight实现了任意PBR风格的光照控制,实现了最先进的光照重打质量,并且每张图像的运行时间不到十分之一秒。代码和模型可在https://mlfarinha.github.io/pixl-relight/获得。

🔬 方法详解

问题定义:现有单图光照重打方法存在诸多问题。一些方法的光照控制能力有限,例如只能通过文本或环境贴图进行粗略调整。另一些方法依赖于逆向和正向渲染的链式操作,容易累积误差,导致重打后的图像质量下降。此外,部分方法需要对每张图像进行单独优化,计算成本高昂,难以满足实时应用的需求。

核心思路:PIXLRelight的核心在于利用共享的内参条件,将基于物理的渲染(PBR)和学习的图像合成连接起来。通过将输入图像分解为反照率、漫反射阴影和非漫反射残差等内参,可以有效地控制光照重打过程,并保留图像的细节信息。这种方法避免了误差累积,并提高了计算效率。

技术框架:PIXLRelight的整体框架包括训练和推理两个阶段。在训练阶段,模型学习从多光照图像中提取内参(反照率、漫反射阴影、非漫反射残差),并建立内参与光照之间的映射关系。在推理阶段,首先利用路径追踪渲染生成粗糙3D重建在目标光照下的渲染结果,并从中提取内参。然后,基于Transformer的神经渲染器将目标光照应用于原始图像,通过逐像素仿射调制保留细节。

关键创新:PIXLRelight的关键创新在于使用内参条件来桥接PBR和学习的图像合成。与现有方法相比,该方法能够实现更精确的光照控制,避免误差累积,并提高计算效率。此外,基于Transformer的神经渲染器能够有效地保留图像的细节信息,从而提高重打后的图像质量。

关键设计:PIXLRelight使用Transformer网络作为神经渲染器,利用其强大的建模能力来学习内参与光照之间的复杂关系。损失函数的设计包括重建损失和感知损失,以保证重打后的图像在视觉上与真实图像相似。此外,逐像素仿射调制的设计能够有效地保留图像的细节信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PIXLRelight在光照重打质量上达到了最先进水平,能够生成逼真且细节丰富的图像。实验结果表明,该方法能够实现任意PBR风格的光照控制,并且推理速度非常快,每张图像的运行时间不到十分之一秒。这使得PIXLRelight能够应用于实时场景,例如游戏和虚拟现实。

🎯 应用场景

PIXLRelight在游戏、电影制作、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于实时调整游戏场景的光照效果,为电影制作提供更灵活的光照控制,以及增强虚拟现实和增强现实的真实感。该研究的突破将推动相关领域的发展,并为用户带来更逼真的视觉体验。

📄 摘要(原文)

We present PIXLRelight, a feed-forward approach for physically controllable single-image relighting. Existing methods either provide limited lighting control (e.g. through text or environment maps), accumulate errors when chaining inverse and forward rendering, or require costly per-image optimization. Our key idea is to bridge physically based rendering (PBR) and learned image synthesis through a shared intrinsic conditioning that can be obtained from either real photographs or PBR renders. At training time, paired multi-illumination photographs are decomposed into albedo, diffuse shading, and non-diffuse residuals, which condition the model. At inference time, the same conditioning is computed from a path-traced render of a coarse 3D reconstruction of the input under user-specified PBR lights. A transformer-based neural renderer then applies the target illumination to the source photograph, preserving fine image detail through a per-pixel affine modulation. PIXLRelight enables arbitrary PBR-style lighting control, achieves state-of-the-art relighting quality, and runs in under a tenth of a second per image. Code and models are available at https://mlfarinha.github.io/pixl-relight/.