InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior

📄 arXiv: 2407.07580v3 📥 PDF

作者: Chenguo Lin, Yuchen Lin, Panwang Pan, Xuanyang Zhang, Yadong Mu

分类: cs.CV

发布日期: 2024-07-10 (更新: 2025-08-02)

备注: Accepted to T-PAMI 2025. This paper is an extension of ICLR 2024 "InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior". arXiv admin note: substantial text overlap with arXiv:2402.04717


💡 一句话要点

InstructLayout:提出一种结合语义图先验的指令驱动2D/3D布局合成框架。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 布局合成 指令驱动 语义图先验 2D布局 3D布局 自然语言处理 场景生成

📋 核心要点

  1. 现有布局合成方法隐式地建模对象联合分布和表达对象关系,导致生成过程的可控性较差。
  2. InstructLayout通过引入语义图先验,显式学习布局外观和对象分布,从而提升生成过程的可控性和保真度。
  3. 实验结果表明,InstructLayout在2D和3D布局合成任务中显著优于现有方法,并通过消融实验验证了关键组件的有效性。

📝 摘要(中文)

本文提出InstructLayout,一种新颖的生成框架,它集成了语义图先验和布局解码器,以提高2D和3D布局合成的可控性和保真度。所提出的语义图先验同时学习布局外观和对象分布,展示了在各种下游任务中零样本的通用性。为了促进文本驱动的2D和3D场景合成的基准测试,我们分别从公共互联网资源中利用大型语言和多模态模型,整理了两个高质量的布局-指令对数据集。大量的实验结果表明,在2D和3D布局合成任务中,该方法大大优于现有的最先进方法。彻底的消融研究证实了关键设计组件的有效性。

🔬 方法详解

问题定义:现有2D和3D布局合成方法难以根据自然语言指令进行精确控制,因为它们隐式地建模对象之间的关系,缺乏对布局外观和对象分布的显式学习。这导致生成结果的可控性和保真度受限。

核心思路:InstructLayout的核心思路是引入一个语义图先验,显式地学习布局的外观和对象分布。通过将指令信息融入到语义图中,可以更好地控制布局的生成过程,从而提高生成结果的质量和可控性。这种显式建模方式使得模型能够更好地理解指令的意图,并生成符合要求的布局。

技术框架:InstructLayout框架主要包含两个核心模块:语义图先验模块和布局解码器模块。首先,语义图先验模块接收自然语言指令作为输入,并生成一个表示布局外观和对象分布的语义图。然后,布局解码器模块利用该语义图生成最终的2D或3D布局。整个框架通过端到端的方式进行训练,以优化布局生成的可控性和保真度。

关键创新:InstructLayout的关键创新在于引入了语义图先验,它能够显式地建模布局的外观和对象分布,从而提高生成过程的可控性。与现有方法隐式地建模对象关系不同,InstructLayout通过语义图显式地表达对象之间的关系,使得模型能够更好地理解指令的意图,并生成符合要求的布局。此外,该方法还提出了一个高质量的布局-指令对数据集,为文本驱动的2D和3D场景合成提供了基准测试平台。

关键设计:语义图先验模块可能包含图神经网络(GNN)等结构,用于学习节点(对象)和边(关系)的表示。布局解码器模块可能采用自回归生成模型或变分自编码器(VAE)等结构,用于生成最终的布局。损失函数可能包括重建损失、对比损失等,用于优化布局的质量和与指令的一致性。具体的网络结构、参数设置和损失函数选择可能需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InstructLayout在2D和3D布局合成任务中均取得了显著的性能提升,大幅优于现有最先进方法。论文中提供了具体的性能数据,并通过消融实验验证了语义图先验等关键组件的有效性。此外,论文还贡献了高质量的布局-指令对数据集,为该领域的研究提供了宝贵的资源。

🎯 应用场景

InstructLayout在室内设计、游戏开发、虚拟现实等领域具有广泛的应用前景。它可以根据用户的自然语言指令自动生成符合要求的2D或3D布局,从而提高设计效率和用户体验。此外,该方法还可以用于生成各种风格的布局,为创意设计提供灵感。

📄 摘要(原文)

Comprehending natural language instructions is a charming property for both 2D and 3D layout synthesis systems. Existing methods implicitly model object joint distributions and express object relations, hindering generation's controllability. We introduce InstructLayout, a novel generative framework that integrates a semantic graph prior and a layout decoder to improve controllability and fidelity for 2D and 3D layout synthesis. The proposed semantic graph prior learns layout appearances and object distributions simultaneously, demonstrating versatility across various downstream tasks in a zero-shot manner. To facilitate the benchmarking for text-driven 2D and 3D scene synthesis, we respectively curate two high-quality datasets of layout-instruction pairs from public Internet resources with large language and multimodal models. Extensive experimental results reveal that the proposed method outperforms existing state-of-the-art approaches by a large margin in both 2D and 3D layout synthesis tasks. Thorough ablation studies confirm the efficacy of crucial design components.