LGTM: Training-Free Light-Guided Text-to-Image Diffusion Model via Initial Noise Manipulation

📄 arXiv: 2603.24086v1 📥 PDF

作者: Ryugo Morita, Stanislav Frolov, Brian Bernhard Moser, Ko Watanabe, Riku Takahashi, Andreas Dengel

分类: cs.CV, cs.GR

发布日期: 2026-03-25

备注: Accepted to IJCNN2026


💡 一句话要点

提出LGTM:一种免训练的光照引导文本到图像扩散模型,通过初始噪声操控实现。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 文本到图像生成 扩散模型 光照控制 初始噪声操控 免训练

📋 核心要点

  1. 现有文本到图像生成方法在光照控制方面存在不足,通常依赖于低效的两阶段流程和大量的计算资源。
  2. LGTM通过操纵扩散模型的初始潜在噪声,利用文本提示和用户指定的光照方向来引导图像生成,无需微调。
  3. 实验表明,LGTM在光照一致性方面优于现有方法,同时保持了图像质量和文本对齐,并能与ControlNet等模型集成。

📝 摘要(中文)

扩散模型在条件文本到图像生成方面表现出高质量的性能,尤其是在边缘、布局和深度等结构化线索的引导下。然而,光照条件受到的关注有限,并且在生成过程中难以控制。现有的方法通常采用两阶段流程,即在生成图像后进行重新光照,效率低下。此外,它们依赖于使用大型数据集进行微调和大量的计算资源,限制了其对新模型和任务的适应性。为了解决这个问题,我们提出了一种新颖的免训练光照引导文本到图像扩散模型,通过初始噪声操控(LGTM),该方法通过操纵扩散过程的初始潜在噪声,利用文本提示和用户指定的光照方向来引导图像生成。通过对潜在空间的通道分析,我们发现选择性地操纵潜在通道可以实现细粒度的光照控制,而无需微调或修改预训练模型。大量的实验表明,我们的方法在光照一致性方面优于基于提示的基线方法,同时保持了图像质量和文本对齐。这种方法为动态的、用户引导的光照控制带来了新的可能性。此外,它还可以与ControlNet等模型无缝集成,展示了在各种场景中的适应性。

🔬 方法详解

问题定义:现有的文本到图像生成模型在控制生成图像的光照条件方面存在困难。传统方法通常采用两阶段流程,即先生成图像,然后再进行光照调整,这种方法效率低下且难以实现精确的光照控制。此外,这些方法通常需要大量的计算资源和数据集进行微调,限制了其通用性和可扩展性。

核心思路:LGTM的核心思路是通过操纵扩散模型的初始噪声来引导图像生成过程,从而实现对光照条件的精确控制。通过分析潜在空间中不同通道的作用,发现可以通过选择性地修改特定通道的噪声来影响生成图像的光照效果。这种方法无需对预训练模型进行微调,从而降低了计算成本并提高了模型的通用性。

技术框架:LGTM的整体框架包括以下几个主要步骤:1) 输入文本提示和用户指定的光照方向;2) 将文本提示编码为潜在向量;3) 根据光照方向,选择性地修改扩散模型的初始噪声;4) 使用修改后的初始噪声进行扩散过程,生成图像。该框架可以与现有的扩散模型(如Stable Diffusion)无缝集成,并且可以与其他控制方法(如ControlNet)结合使用。

关键创新:LGTM最重要的技术创新点在于其免训练的光照控制方法。与现有方法相比,LGTM无需对预训练模型进行微调,从而大大降低了计算成本和数据需求。此外,LGTM通过直接操纵初始噪声来实现光照控制,从而可以实现更精确和细粒度的光照效果。

关键设计:LGTM的关键设计包括:1) 对潜在空间的通道分析,以确定哪些通道对光照效果有影响;2) 一种基于光照方向的噪声修改策略,用于选择性地修改初始噪声;3) 一种与现有扩散模型和控制方法兼容的集成方案。具体来说,通过实验发现,潜在空间中的某些通道与图像的亮度、阴影等光照属性密切相关。因此,可以通过修改这些通道的噪声来控制生成图像的光照效果。噪声修改策略根据用户指定的光照方向,调整这些通道的噪声强度和方向,从而实现对光照条件的精确控制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LGTM在光照一致性方面优于基于提示的基线方法。具体来说,LGTM生成的光照方向与用户指定的光照方向更加一致,并且可以生成更逼真的阴影和光照效果。此外,LGTM在保持图像质量和文本对齐方面也表现出色,与原始扩散模型相比没有明显的性能下降。LGTM还成功地与ControlNet等模型集成,展示了其在各种场景中的适应性。

🎯 应用场景

LGTM具有广泛的应用前景,包括:1) 虚拟现实和增强现实内容生成,可以根据用户指定的场景和光照条件生成逼真的图像;2) 电影和游戏制作,可以快速生成具有不同光照效果的场景;3) 电商产品展示,可以根据不同的光照条件展示产品的外观;4) 艺术创作,可以帮助艺术家探索不同的光照效果。

📄 摘要(原文)

Diffusion models have demonstrated high-quality performance in conditional text-to-image generation, particularly with structural cues such as edges, layouts, and depth. However, lighting conditions have received limited attention and remain difficult to control within the generative process. Existing methods handle lighting through a two-stage pipeline that relights images after generation, which is inefficient. Moreover, they rely on fine-tuning with large datasets and heavy computation, limiting their adaptability to new models and tasks. To address this, we propose a novel Training-Free Light-Guided Text-to-Image Diffusion Model via Initial Noise Manipulation (LGTM), which manipulates the initial latent noise of the diffusion process to guide image generation with text prompts and user-specified light directions. Through a channel-wise analysis of the latent space, we find that selectively manipulating latent channels enables fine-grained lighting control without fine-tuning or modifying the pre-trained model. Extensive experiments show that our method surpasses prompt-based baselines in lighting consistency, while preserving image quality and text alignment. This approach introduces new possibilities for dynamic, user-guided light control. Furthermore, it integrates seamlessly with models like ControlNet, demonstrating adaptability across diverse scenarios.