CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

📄 arXiv: 2604.27361v1 📥 PDF

作者: Yingrui Wu, Youkang Kong, Mingyang Zhao, Weize Quan, Dong-Ming Yan, Yang Liu

分类: cs.CV, cs.GR

发布日期: 2026-04-30

备注: SIGGARPH 2026 (Journal Track), Code: https://github.com/YingruiWoo/CasLayout

DOI: 10.1145/3811347


💡 一句话要点

CasLayout:级联扩散模型,通过隐式关系建模实现室内场景合成

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 室内场景合成 扩散模型 关系建模 稀疏图 变分自编码器

📋 核心要点

  1. 现有室内场景合成方法难以兼顾全局架构约束和局部语义一致性,且数据需求高。
  2. CasLayout通过级联扩散框架,将场景生成分解为多个子阶段,并显式建模建筑元素和稀疏关系图。
  3. 实验表明,CasLayout在保真度和多样性方面达到了SOTA,并提升了场景生成的可控性。

📝 摘要(中文)

由于数据稀缺以及难以同时满足全局架构约束和局部语义一致性,逼真的3D室内场景合成仍然具有挑战性。现有方法通常忽略结构边界或依赖于引入冗余生成错误的完全连接关系图。受人类设计认知的启发,我们提出了CasLayout,一个级联扩散框架,它将联合场景生成任务分解为四个具有明确物理和语义角色的条件子阶段:(1)预测家具的数量和类别;(2)细化物体的大小和特征嵌入;(3)在潜在空间中建模空间关系;(4)生成有向包围盒(OBB)。这种解耦架构降低了数据需求,并能够灵活地集成大型语言模型(LLM)和视觉语言模型(VLM),以实现诸如图像到场景生成之类的零样本任务。为了在复杂楼层平面内保持物理有效性,我们显式地将建筑元素(例如,墙壁、门和窗户)建模为条件约束。此外,为了解决密集关系图的高熵问题,我们引入了一种与人类空间描述对齐的稀疏关系图公式。通过使用双向变分自编码器(VAE)将这些稀疏图编码到紧凑的潜在空间中,所提出的框架提供了增强的关系可控性,从而使生成的布局能够更好地尊重功能组织。实验表明,CasLayout在保真度和多样性方面实现了最先进的性能,同时在实际应用中实现了改进的可控性。

🔬 方法详解

问题定义:现有3D室内场景合成方法面临数据稀缺、难以同时满足全局架构约束和局部语义一致性的问题。此外,现有方法要么忽略结构边界,要么依赖于完全连接的关系图,导致冗余的生成错误和高计算复杂度。

核心思路:受人类设计认知的启发,CasLayout将复杂的场景生成任务分解为多个子阶段,每个阶段负责特定的物理和语义角色。通过解耦任务,降低了数据需求,并允许灵活集成LLM和VLM。同时,引入稀疏关系图来建模对象之间的关系,降低了关系图的熵,提高了可控性。

技术框架:CasLayout是一个级联扩散框架,包含四个主要阶段:(1)预测家具的数量和类别;(2)细化物体的大小和特征嵌入;(3)在潜在空间中建模空间关系;(4)生成有向包围盒(OBB)。框架显式地将建筑元素(墙壁、门窗)建模为条件约束,并使用双向VAE将稀疏关系图编码到紧凑的潜在空间中。

关键创新:CasLayout的关键创新在于其级联扩散框架和稀疏关系图建模。级联框架通过解耦任务降低了数据需求,稀疏关系图通过减少冗余连接提高了关系建模的效率和可控性。与现有方法依赖完全连接图相比,稀疏关系图更符合人类的空间描述习惯。

关键设计:框架使用扩散模型进行物体大小和位置的预测,并使用VAE进行关系图的潜在空间编码。稀疏关系图的设计基于对象之间的空间邻近性和语义关系。损失函数包括重建损失、KL散度损失和对抗损失,以保证生成结果的质量和多样性。具体参数设置未知。

📊 实验亮点

实验结果表明,CasLayout在3D室内场景合成的保真度和多样性方面均达到了SOTA水平。与现有方法相比,CasLayout能够生成更符合物理规则和语义一致性的场景,并且具有更强的可控性。具体的性能数据和提升幅度未知。

🎯 应用场景

CasLayout可应用于室内设计、虚拟现实、游戏开发等领域。它可以根据用户需求自动生成逼真的3D室内场景,提高设计效率,降低开发成本。未来,该技术有望与LLM和VLM结合,实现更智能化的场景生成和编辑。

📄 摘要(原文)

Synthesizing realistic 3D indoor scenes remains challenging due to data scarcity and the difficulty of simultaneously enforcing global architectural constraints and local semantic consistency. Existing approaches often overlook structural boundaries or rely on fully connected relation graphs that introduce redundant generation errors. Inspired by human design cognition, we present CasLayout, a cascaded diffusion framework that decomposes the joint scene generation task into four conditional sub-stages with explicit physical and semantic roles: (1) predicting furniture quantity and categories, (2) refining object sizes and feature embeddings, (3) modeling spatial relationships in a latent space, and (4) generating Oriented Bounding Boxes (OBBs). This decoupled architecture reduces data requirements and enables flexible integration of Large Language Models (LLMs) and Vision Language Models (VLMs) for zero-shot tasks such as image-to-scene generation. To maintain physical validity within complex floor plans, we explicitly model building elements (e.g., walls, doors, and windows) as conditional constraints. Furthermore, to address the high entropy of dense relation graphs, we introduce a sparse relation graph formulation aligned with human spatial descriptions. By encoding these sparse graphs into a compact latent space using a bidirectional Variational Autoencoder (VAE), the proposed framework provides enhanced relational controllability, allowing generated layouts to better respect functional organization. Experiments demonstrate that CasLayout achieves state-of-the-art performance in fidelity and diversity while enabling improved controllability in practical applications.