Lay-Your-Scene: Natural Scene Layout Generation with Diffusion Transformers

📄 arXiv: 2505.04718v1 📥 PDF

作者: Divyansh Srivastava, Xiang Zhang, He Wen, Chenru Wen, Zhuowen Tu

分类: cs.CV, cs.LG

发布日期: 2025-05-07


💡 一句话要点

提出LayouSyn,一种基于扩散Transformer的自然场景布局生成方法,提升可控图像生成能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 场景布局生成 扩散模型 Transformer 自然语言处理 可控图像生成

📋 核心要点

  1. 现有场景布局生成方法受限于封闭词汇表或依赖专有大模型,限制了其建模能力和应用范围。
  2. LayouSyn利用轻量级开源语言模型提取场景元素,并设计了感知纵横比的扩散Transformer架构。
  3. 实验表明LayouSyn在空间和数值推理基准上超越现有方法,并在图像编辑等应用中展现潜力。

📝 摘要(中文)

本文提出Lay-Your-Scene (LayouSyn),一种用于自然场景的文本到布局生成的新pipeline。现有的场景布局生成方法要么词汇表封闭,要么使用专有的LLM进行开放词汇生成,限制了其建模能力和在可控图像生成中的广泛适用性。本文提出使用轻量级的开源语言模型从文本提示中获取场景元素,并提出一种在开放词汇环境中训练的、感知纵横比的扩散Transformer架构,用于条件布局生成。大量实验表明,LayouSyn优于现有方法,并在具有挑战性的空间和数值推理基准上实现了最先进的性能。此外,本文展示了LayouSyn的两个应用。首先,我们表明来自大型语言模型的粗略初始化可以与我们的方法无缝结合,以获得更好的结果。其次,我们提出了一个向图像添加对象的pipeline,展示了LayouSyn在图像编辑应用中的潜力。

🔬 方法详解

问题定义:现有自然场景布局生成方法主要存在两个痛点:一是词汇表封闭,无法处理开放领域的文本描述;二是依赖于专有的大型语言模型,限制了其可访问性和可控性。这些局限性阻碍了场景布局生成技术在更广泛的可控图像生成任务中的应用。

核心思路:LayouSyn的核心思路是利用轻量级的开源语言模型来提取文本提示中的场景元素,并设计一个基于扩散Transformer的架构,该架构能够根据提取的场景元素生成合理的场景布局。通过这种方式,LayouSyn能够实现开放词汇的场景布局生成,并避免对专有大模型的依赖。

技术框架:LayouSyn的整体框架包含两个主要模块:1) 场景元素提取模块:使用轻量级的开源语言模型(如BERT)从文本提示中提取场景元素,包括物体类别和属性等信息。2) 布局生成模块:采用感知纵横比的扩散Transformer架构,以提取的场景元素为条件,生成场景布局。该模块通过扩散过程逐步优化布局,最终生成符合文本描述的自然场景布局。

关键创新:LayouSyn的关键创新在于其扩散Transformer架构的设计,该架构能够显式地考虑物体的纵横比信息,从而生成更符合真实场景的布局。此外,LayouSyn采用开放词汇的训练方式,使其能够处理更广泛的文本描述,并生成更丰富的场景布局。

关键设计:在扩散Transformer架构中,采用了自注意力机制来建模物体之间的关系,并使用交叉注意力机制来融合文本提示中的信息。损失函数包括扩散损失和布局约束损失,用于保证生成布局的合理性和真实性。此外,还设计了一种纵横比感知的编码方式,将物体的纵横比信息融入到Transformer的输入中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LayouSyn在空间和数值推理基准上取得了state-of-the-art的性能,显著优于现有方法。实验结果表明,LayouSyn能够生成更符合文本描述的自然场景布局,并且能够处理更复杂的场景和关系。此外,通过与大型语言模型进行粗略初始化相结合,LayouSyn能够进一步提升生成效果。在图像编辑应用中,LayouSyn展示了其在向图像添加对象方面的潜力。

🎯 应用场景

LayouSyn在可控图像生成、图像编辑、虚拟现实和游戏开发等领域具有广泛的应用前景。例如,可以根据用户的文本描述自动生成场景布局,用于创建虚拟场景或编辑现有图像。此外,LayouSyn还可以用于生成训练数据,以提高其他图像生成模型的性能。该研究的实际价值在于降低了场景布局生成的门槛,并为各种应用提供了更灵活和可控的图像生成能力。

📄 摘要(原文)

We present Lay-Your-Scene (shorthand LayouSyn), a novel text-to-layout generation pipeline for natural scenes. Prior scene layout generation methods are either closed-vocabulary or use proprietary large language models for open-vocabulary generation, limiting their modeling capabilities and broader applicability in controllable image generation. In this work, we propose to use lightweight open-source language models to obtain scene elements from text prompts and a novel aspect-aware diffusion Transformer architecture trained in an open-vocabulary manner for conditional layout generation. Extensive experiments demonstrate that LayouSyn outperforms existing methods and achieves state-of-the-art performance on challenging spatial and numerical reasoning benchmarks. Additionally, we present two applications of LayouSyn. First, we show that coarse initialization from large language models can be seamlessly combined with our method to achieve better results. Second, we present a pipeline for adding objects to images, demonstrating the potential of LayouSyn in image editing applications.