Does FLUX Already Know How to Perform Physically Plausible Image Composition?

📄 arXiv: 2509.21278v3 📥 PDF

作者: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-09-25 (更新: 2025-11-02)

备注: Preprint


💡 一句话要点

提出SHINE框架,无需训练即可实现物理上合理的图像合成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 图像合成 扩散模型 无训练 物理合理性 高分辨率 流形引导 背景融合

📋 核心要点

  1. 现有图像合成方法难以处理复杂光照和高分辨率输入,且依赖潜在反演或注意力机制操作,存在姿态不自然等问题。
  2. SHINE框架利用预训练扩散模型中的物理和分辨率先验,通过流形引导的锚点损失和定制适配器,实现无缝、高保真度的图像合成。
  3. 在ComplexCompo和DreamEditBench数据集上,SHINE在DINOv2、DreamSim等指标上取得了SOTA性能,并更符合人类感知。

📝 摘要(中文)

图像合成旨在将用户指定的对象无缝地插入到新的场景中,但现有模型难以处理复杂的光照(例如,精确的阴影、水面反射)以及多样化的高分辨率输入。现代文本到图像扩散模型(例如,SD3.5、FLUX)已经编码了重要的物理和分辨率先验知识,但缺乏一个框架来释放它们,而无需依赖潜在反演(latent inversion),后者通常将对象姿势锁定到上下文不合适的朝向,或者脆弱的注意力机制操作。我们提出了SHINE,一个无需训练的框架,用于实现无缝、高保真度的插入,并消除误差。SHINE引入了流形引导的锚点损失(manifold-steered anchor loss),利用预训练的定制适配器(例如,IP-Adapter)来引导潜在变量,以实现对主体(subject)的忠实表示,同时保持背景的完整性。提出了退化抑制引导(degradation-suppression guidance)和自适应背景融合(adaptive background blending)来进一步消除低质量的输出和可见的接缝。为了解决缺乏严格基准的问题,我们引入了ComplexCompo,它具有多样化的分辨率和具有挑战性的条件,例如低光照、强光照、复杂的阴影和反射表面。在ComplexCompo和DreamEditBench上的实验表明,在标准指标(例如,DINOv2)和人类对齐的分数(例如,DreamSim、ImageReward、VisionReward)上,SHINE都取得了最先进的性能。代码和基准将在发布后公开。

🔬 方法详解

问题定义:现有图像合成方法在处理复杂光照条件(如阴影、反射)和高分辨率图像时表现不佳。此外,现有方法通常依赖于潜在空间反演或注意力机制操作,这可能导致合成对象姿态不自然或与背景不协调,限制了合成效果的真实性和自然性。

核心思路:SHINE的核心思路是利用预训练的文本到图像扩散模型(如SD3.5、FLUX)中已经编码的物理和分辨率先验知识,通过一种无需训练的方式,引导模型生成高质量的合成图像。该方法旨在避免对潜在空间进行直接操作,从而减少姿态不自然等问题,并保持背景的完整性。

技术框架:SHINE框架主要包含以下几个关键模块:1) 流形引导的锚点损失(Manifold-steered Anchor Loss):利用预训练的定制适配器(如IP-Adapter)来引导潜在变量,确保合成对象与用户指定的对象一致。2) 退化抑制引导(Degradation-suppression Guidance):用于抑制合成过程中产生的低质量输出。3) 自适应背景融合(Adaptive Background Blending):用于平滑合成对象与背景之间的过渡,消除可见的接缝。整体流程是,首先利用定制适配器提取对象特征,然后通过锚点损失引导扩散模型生成合成图像,最后通过退化抑制引导和自适应背景融合进行优化。

关键创新:SHINE的关键创新在于提出了一种无需训练的图像合成框架,它能够有效地利用预训练扩散模型中的先验知识,避免了对潜在空间的直接操作,从而减少了姿态不自然等问题。此外,流形引导的锚点损失、退化抑制引导和自适应背景融合等模块也为提高合成图像的质量和真实性做出了重要贡献。与现有方法相比,SHINE不需要额外的训练数据,并且能够更好地处理复杂的光照条件和高分辨率图像。

关键设计:流形引导的锚点损失通过最小化合成图像的潜在表示与目标对象潜在表示之间的距离,来保证合成对象的准确性。退化抑制引导通过对低质量输出进行惩罚,来提高合成图像的整体质量。自适应背景融合通过调整合成对象边缘的像素值,来平滑合成对象与背景之间的过渡。具体的参数设置和网络结构细节在论文中应该有更详细的描述(未知)。

📊 实验亮点

SHINE在ComplexCompo和DreamEditBench数据集上取得了显著的性能提升。在标准指标(如DINOv2)和人类对齐的分数(如DreamSim、ImageReward、VisionReward)上,SHINE均达到了最先进的水平。ComplexCompo数据集的引入也为图像合成领域提供了一个更具挑战性和多样性的基准,促进了相关技术的发展。具体的性能数据和提升幅度需要在论文中查找(未知)。

🎯 应用场景

SHINE框架具有广泛的应用前景,例如虚拟现实、增强现实、游戏开发、电影制作和广告设计等领域。它可以用于快速生成高质量的合成图像,从而节省大量的人力和时间成本。此外,SHINE还可以用于图像编辑和修复,例如将对象从一张图像移动到另一张图像,或者修复图像中的损坏部分。未来,SHINE有望成为一种通用的图像合成工具,为各行各业带来便利。

📄 摘要(原文)

Image composition aims to seamlessly insert a user-specified object into a new scene, but existing models struggle with complex lighting (e.g., accurate shadows, water reflections) and diverse, high-resolution inputs. Modern text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential physical and resolution priors, yet lack a framework to unleash them without resorting to latent inversion, which often locks object poses into contextually inappropriate orientations, or brittle attention surgery. We propose SHINE, a training-free framework for Seamless, High-fidelity Insertion with Neutralized Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained customization adapters (e.g., IP-Adapter) to guide latents for faithful subject representation while preserving background integrity. Degradation-suppression guidance and adaptive background blending are proposed to further eliminate low-quality outputs and visible seams. To address the lack of rigorous benchmarks, we introduce ComplexCompo, featuring diverse resolutions and challenging conditions such as low lighting, strong illumination, intricate shadows, and reflective surfaces. Experiments on ComplexCompo and DreamEditBench show state-of-the-art performance on standard metrics (e.g., DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward). Code and benchmark will be publicly available upon publication.