LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation

📄 arXiv: 2502.01949v2 📥 PDF

作者: Yang Zhou, Zongjin He, Qixuan Li, Chao Wang

分类: cs.CV, cs.AI, cs.GR

发布日期: 2025-02-04 (更新: 2025-03-22)


💡 一句话要点

LayoutDreamer:提出物理引导的布局方法,用于文本到3D组合场景生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)

关键词: 文本到3D生成 组合场景生成 3D高斯溅射 物理约束 场景图

📋 核心要点

  1. 现有文本引导的3D场景生成方法难以捕捉对象间的复杂关系,且生成的场景布局缺乏物理合理性。
  2. LayoutDreamer通过场景图表示文本提示,并利用物理和布局能量约束,生成物理上合理的3D场景。
  3. 实验表明,LayoutDreamer在多对象生成质量和语义对齐方面优于现有方法,并在T3Bench上取得SOTA性能。

📝 摘要(中文)

本文提出LayoutDreamer框架,利用3D高斯溅射(3DGS)实现高质量、物理一致的文本引导3D组合场景生成。给定文本提示,框架将其转换为有向场景图,并自适应调整初始组合3D高斯的密度和布局。随后,基于训练焦点进行动态相机调整,以确保实体级别的生成质量。最后,通过提取场景图中的有向依赖关系,定制物理和布局能量,保证真实性和灵活性。实验结果表明,LayoutDreamer在组合场景生成质量和语义对齐方面优于其他方法,并在T3Bench的多对象生成指标上实现了最先进(SOTA)的性能。

🔬 方法详解

问题定义:现有文本到3D场景生成方法在处理复杂场景时,难以捕捉文本描述中多个对象之间的复杂关系,生成的场景布局往往不符合物理规律,缺乏真实感。此外,现有方法在组合场景的可控性和可扩展性方面存在不足。

核心思路:LayoutDreamer的核心思路是将文本提示转换为有向场景图,利用场景图中的依赖关系指导3D场景的生成和布局。通过引入物理和布局能量,约束场景中对象的位置和姿态,保证生成的场景在物理上是合理的。同时,通过动态相机调整,提升实体级别的生成质量。

技术框架:LayoutDreamer框架主要包含以下几个阶段:1) 文本提示到有向场景图的转换;2) 基于场景图自适应调整初始3D高斯的密度和布局;3) 基于训练焦点的动态相机调整;4) 基于场景图依赖关系的物理和布局能量优化。整个框架以3D高斯溅射(3DGS)为基础,实现高质量的3D场景生成。

关键创新:LayoutDreamer的关键创新在于:1) 利用有向场景图表示文本提示,显式地建模了对象之间的关系;2) 引入物理和布局能量,约束场景的物理合理性;3) 提出动态相机调整策略,提升实体级别的生成质量。这些创新使得LayoutDreamer能够生成更真实、更可控的3D组合场景。

关键设计:在物理和布局能量的设计上,论文根据场景图中对象之间的依赖关系,定制了不同的能量项。例如,对于支撑关系,会施加重力约束和支撑力约束,保证支撑对象能够稳定地支撑被支撑对象。在动态相机调整方面,论文根据训练的焦点,自适应地调整相机的位置和角度,以保证关键对象的生成质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LayoutDreamer在T3Bench数据集上进行了评估,并在多对象生成指标上取得了SOTA性能。实验结果表明,LayoutDreamer生成的场景在语义对齐和物理合理性方面显著优于其他方法。例如,在生成包含多个对象的复杂场景时,LayoutDreamer能够更好地捕捉对象之间的关系,并生成符合物理规律的布局。

🎯 应用场景

LayoutDreamer在游戏开发、虚拟现实、室内设计等领域具有广泛的应用前景。它可以根据文本描述自动生成逼真的3D场景,极大地降低了3D内容创作的门槛。此外,LayoutDreamer还可以用于机器人环境感知和导航,帮助机器人理解和操作复杂环境。

📄 摘要(原文)

Recently, the field of text-guided 3D scene generation has garnered significant attention. High-quality generation that aligns with physical realism and high controllability is crucial for practical 3D scene applications. However, existing methods face fundamental limitations: (i) difficulty capturing complex relationships between multiple objects described in the text, (ii) inability to generate physically plausible scene layouts, and (iii) lack of controllability and extensibility in compositional scenes. In this paper, we introduce LayoutDreamer, a framework that leverages 3D Gaussian Splatting (3DGS) to facilitate high-quality, physically consistent compositional scene generation guided by text. Specifically, given a text prompt, we convert it into a directed scene graph and adaptively adjust the density and layout of the initial compositional 3D Gaussians. Subsequently, dynamic camera adjustments are made based on the training focal point to ensure entity-level generation quality. Finally, by extracting directed dependencies from the scene graph, we tailor physical and layout energy to ensure both realism and flexibility. Comprehensive experiments demonstrate that LayoutDreamer outperforms other compositional scene generation quality and semantic alignment methods. Specifically, it achieves state-of-the-art (SOTA) performance in the multiple objects generation metric of T3Bench.