Training-Free Multi-View Extension of IC-Light for Textual Position-Aware Scene Relighting

📄 arXiv: 2511.13684v1 📥 PDF

作者: Jiangnan Ye, Jiedong Zhuang, Lianrui Mu, Wenjie Zheng, Jiaqi Hu, Xingze Zou, Jing Wang, Haoji Hu

分类: cs.CV, cs.LG

发布日期: 2025-11-17

备注: Submitting for Neurocomputing


💡 一句话要点

GS-Light:基于高斯溅射的文本引导、无训练多视角场景重光照方法

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 文本引导重光照 多视角一致性 高斯溅射 扩散模型 视觉-语言模型 3D场景编辑 免训练学习

📋 核心要点

  1. 现有场景重光照方法难以有效结合文本引导,且通常需要大量训练数据,泛化性受限。
  2. GS-Light通过LVLM解析文本提示为光照先验,结合几何和语义信息,生成初始潜在代码引导扩散模型。
  3. 实验表明,GS-Light在多视角一致性、图像质量和用户偏好上均优于现有单视角、视频重光照及场景编辑方法。

📝 摘要(中文)

本文提出GS-Light,一个高效的、文本位置感知的流水线,用于对通过高斯溅射(3DGS)表示的3D场景进行文本引导的重光照。GS-Light实现了一个单输入扩散模型的免训练扩展,以处理多视角输入。给定一个用户提示,其中可能指定光照方向、颜色、强度或参考对象,我们采用大型视觉-语言模型(LVLM)将提示解析为光照先验。使用现成的几何和语义估计器(深度、表面法线和语义分割),我们将这些光照先验与视角-几何约束融合,以计算光照图并为每个视角生成初始潜在代码。这些精心推导的初始潜在代码引导扩散模型生成更准确地反映用户期望的重光照输出,尤其是在光照方向方面。通过将多视角渲染图像以及初始潜在代码输入到我们的多视角重光照模型中,我们生成高保真、艺术化的重光照图像。最后,我们使用重光照外观微调3DGS场景,以获得完全重光照的3D场景。我们在室内和室外场景中评估GS-Light,并将其与最先进的基线(包括单视角重光照、视频重光照和场景编辑方法)进行比较。使用定量指标(多视角一致性、图像质量、美学评分、语义相似性等)和定性评估(用户研究),GS-Light展示了相对于基线的持续改进。代码和资源将在发布后提供。

🔬 方法详解

问题定义:论文旨在解决3D场景的文本引导重光照问题,即根据用户提供的文本描述(例如光照方向、颜色、强度等)修改场景的光照效果。现有的方法通常是基于单视角图像进行重光照,缺乏多视角一致性,或者需要大量的训练数据,难以泛化到新的场景和光照条件。此外,如何有效地将文本信息融入到重光照过程中也是一个挑战。

核心思路:论文的核心思路是利用大型视觉-语言模型(LVLM)将文本提示解析为光照先验,然后结合场景的几何和语义信息,生成初始的潜在代码,用于引导扩散模型生成重光照后的图像。通过多视角一致性约束和对3DGS场景的微调,最终实现高质量的、文本引导的3D场景重光照。这种方法避免了大量的训练数据,并且能够更好地理解和利用文本信息。

技术框架:GS-Light的整体框架包括以下几个主要阶段:1) 文本提示解析:使用LVLM将用户提供的文本提示解析为光照先验,例如光照方向、颜色和强度。2) 几何和语义估计:使用现成的工具估计场景的深度、表面法线和语义分割。3) 初始潜在代码生成:将光照先验与几何和语义信息融合,为每个视角生成初始的潜在代码。4) 多视角重光照:将多视角渲染图像和初始潜在代码输入到扩散模型中,生成重光照后的图像。5) 3DGS微调:使用重光照后的图像微调3DGS场景,以获得完全重光照的3D场景。

关键创新:GS-Light的关键创新在于:1) 提出了一种免训练的多视角重光照方法,避免了对大量训练数据的依赖。2) 利用LVLM将文本提示转化为光照先验,实现了文本引导的重光照。3) 将光照先验、几何和语义信息融合,生成初始潜在代码,有效地引导了扩散模型的生成过程。4) 通过多视角一致性约束和3DGS微调,提高了重光照结果的质量和一致性。

关键设计:论文的关键设计包括:1) 使用CLIP模型作为LVLM,将文本提示编码为光照先验。2) 使用深度、表面法线和语义分割作为几何和语义信息。3) 设计了一种融合光照先验、几何和语义信息的初始潜在代码生成方法。4) 使用预训练的扩散模型作为重光照模型,并通过初始潜在代码进行引导。5) 使用L1损失和感知损失作为3DGS微调的损失函数。

📊 实验亮点

GS-Light在室内和室外场景中进行了评估,并与单视角重光照、视频重光照和场景编辑等基线方法进行了比较。实验结果表明,GS-Light在多视角一致性、图像质量、美学评分和语义相似性等方面均优于基线方法。用户研究也表明,GS-Light能够更好地满足用户对光照效果的期望,尤其是在光照方向方面。

🎯 应用场景

GS-Light在虚拟现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建具有特定光照效果的3D场景,例如模拟日出、日落或特定光源下的场景。此外,它还可以用于场景编辑,例如改变场景中物体的材质或颜色。该技术有望提升3D内容的创作效率和质量,并为用户提供更加个性化的体验。

📄 摘要(原文)

We introduce GS-Light, an efficient, textual position-aware pipeline for text-guided relighting of 3D scenes represented via Gaussian Splatting (3DGS). GS-Light implements a training-free extension of a single-input diffusion model to handle multi-view inputs. Given a user prompt that may specify lighting direction, color, intensity, or reference objects, we employ a large vision-language model (LVLM) to parse the prompt into lighting priors. Using off-the-shelf estimators for geometry and semantics (depth, surface normals, and semantic segmentation), we fuse these lighting priors with view-geometry constraints to compute illumination maps and generate initial latent codes for each view. These meticulously derived init latents guide the diffusion model to generate relighting outputs that more accurately reflect user expectations, especially in terms of lighting direction. By feeding multi-view rendered images, along with the init latents, into our multi-view relighting model, we produce high-fidelity, artistically relit images. Finally, we fine-tune the 3DGS scene with the relit appearance to obtain a fully relit 3D scene. We evaluate GS-Light on both indoor and outdoor scenes, comparing it to state-of-the-art baselines including per-view relighting, video relighting, and scene editing methods. Using quantitative metrics (multi-view consistency, imaging quality, aesthetic score, semantic similarity, etc.) and qualitative assessment (user studies), GS-Light demonstrates consistent improvements over baselines. Code and assets will be made available upon publication.