VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

📄 arXiv: 2603.08020v1 📥 PDF

作者: Jing Li, Jing Zhang

分类: cs.CV

发布日期: 2026-03-09

备注: 12 pages,8 figures


💡 一句话要点

VSDiffusion:通过可见性约束扩散模型解决阴影生成难题

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 阴影生成 图像合成 扩散模型 可见性约束 深度学习

📋 核心要点

  1. 图像合成中阴影生成面临几何一致性挑战,现有方法难以在复杂场景中生成逼真阴影。
  2. VSDiffusion利用可见性先验,通过两阶段框架缩小解空间,生成更准确的阴影。
  3. 实验表明,VSDiffusion在DESOBAv2数据集上取得了SOTA结果,显著提升了阴影生成的质量。

📝 摘要(中文)

本文提出VSDiffusion,一个可见性约束的两阶段框架,旨在解决图像合成中前景对象阴影生成这一具有挑战性的问题。该框架通过结合可见性先验来缩小解空间,从而解决复杂场景中阴影和对象几何一致性难以维持的问题。在第一阶段,我们预测一个粗略的阴影掩码,以定位可能的阴影生成区域。在第二阶段,在从合成图像估计的光照和深度线索的引导下,执行条件扩散以生成精确的阴影。在VSDiffusion中,我们通过两个互补的途径注入可见性先验:一个具有阴影门控交叉注意力的可见性控制分支,提供多尺度结构指导;以及一个学习到的软先验图,重新加权易出错区域的训练损失,以增强几何校正。此外,我们还引入了高频引导增强模块,以锐化边界并改善与背景的纹理交互。在广泛使用的公共DESOBAv2数据集上的实验表明,我们提出的VSDiffusion可以生成准确的阴影,并在大多数评估指标上建立了新的SOTA结果。

🔬 方法详解

问题定义:论文旨在解决图像合成中,为插入的前景对象生成逼真阴影的问题。现有方法难以在复杂场景中维持阴影与对象的几何一致性,导致生成的阴影不自然,影响合成图像的真实感。阴影生成本质上是一个病态问题,存在多种可能的解,难以确定最优解。

核心思路:论文的核心思路是通过引入可见性先验来约束阴影生成的解空间,从而提高生成阴影的准确性和真实感。具体来说,利用场景的几何信息(如深度)和光照信息来推断哪些区域可能存在阴影,并以此引导阴影的生成过程。通过缩小搜索范围,可以更容易地找到符合物理规律和视觉感知的阴影。

技术框架:VSDiffusion是一个两阶段的框架。第一阶段,预测一个粗略的阴影掩码,用于定位潜在的阴影区域。第二阶段,利用条件扩散模型,在光照和深度信息的引导下,生成精确的阴影。框架包含三个主要模块:可见性控制分支、软先验图和高频引导增强模块。可见性控制分支利用阴影门控交叉注意力提供多尺度结构指导。软先验图重新加权训练损失,增强几何校正。高频引导增强模块锐化边界,改善纹理交互。

关键创新:论文的关键创新在于将可见性先验融入到扩散模型的阴影生成过程中。通过可见性控制分支和软先验图,有效地利用了场景的几何和光照信息,从而生成更符合物理规律和视觉感知的阴影。此外,高频引导增强模块进一步提升了阴影的细节和真实感。与现有方法相比,VSDiffusion能够更好地处理复杂场景中的阴影生成问题。

关键设计:可见性控制分支使用阴影门控交叉注意力机制,允许网络关注与阴影生成相关的特征。软先验图通过学习的方式,自动识别易出错的区域,并增加这些区域的训练权重。高频引导增强模块利用高频信息来锐化阴影边界,并改善阴影与背景的纹理交互。损失函数包括L1损失、感知损失和对抗损失,以保证生成阴影的质量和真实感。扩散模型采用U-Net结构,并使用DDPM作为扩散过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VSDiffusion在DESOBAv2数据集上取得了显著的性能提升,在多个评估指标上超越了现有方法,建立了新的SOTA结果。具体来说,在阴影掩码预测的准确率、阴影的真实感和几何一致性等方面均有明显提升。实验结果表明,VSDiffusion能够生成更准确、更逼真的阴影,有效地解决了复杂场景中的阴影生成问题。

🎯 应用场景

VSDiffusion在图像编辑、电影特效、游戏开发等领域具有广泛的应用前景。它可以用于在图像中添加或修改阴影,从而增强图像的真实感和艺术效果。在电影特效中,可以用于合成虚拟场景和角色,并为其生成逼真的阴影。在游戏开发中,可以用于创建动态的阴影效果,提升游戏的视觉体验。该研究的成果有助于提高图像合成的自动化程度和质量,降低人工成本。

📄 摘要(原文)

Generating realistic cast shadows for inserted foreground objects is a crucial yet challenging problem in image composition, where maintaining geometric consistency of shadow and object in complex scenes remains difficult due to the ill-posed nature of shadow formation. To address this issue, we propose VSDiffusion, a visibility-constrained two-stage framework designed to narrow the solution space by incorporating visibility priors. In Stage I, we predict a coarse shadow mask to localize plausible shadow generated regions. And in Stage II, conditional diffusion is performed guided by lighting and depth cues estimated from the composite to generate accurate shadows. In VSDiffusion, we inject visibility priors through two complementary pathways. First, a visibility control branch with shadow-gated cross attention that provides multi-scale structural guidance. Then, a learned soft prior map that reweights training loss in error-prone regions to enhance geometric correction. Additionally, we also introduce high-frequency guided enhancement module to sharpen boundaries and improve texture interaction with the background. Experiments on widely used public DESOBAv2 dataset demonstrated that our proposed VSDiffusion can generate accurate shadow, and establishes new SOTA results across most evaluation metrics.