Repurposing 3D Generative Model for Autoregressive Layout Generation

📄 arXiv: 2604.16299v1 📥 PDF

作者: Haoran Feng, Yifan Niu, Zehuan Huang, Yang-Tian Sun, Chunchao Guo, Yuxin Peng, Lu Sheng

分类: cs.CV

发布日期: 2026-04-17

备注: https://fenghora.github.io/LaviGen-Page/

🔗 代码/项目: GITHUB


💡 一句话要点

LaviGen:利用3D生成模型进行自回归布局生成,提升场景物理合理性与生成效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 3D布局生成 自回归模型 扩散模型 物理合理性 几何关系 场景生成 深度学习

📋 核心要点

  1. 现有方法难以在3D空间中显式建模对象间的几何关系和物理约束,导致生成的3D场景缺乏连贯性和物理合理性。
  2. LaviGen将3D布局生成建模为自回归过程,直接在3D空间中操作,显式建模对象间的关系,保证场景的物理合理性。
  3. LaviGen通过改进的3D扩散模型和双重引导自rollout蒸馏机制,在LayoutVLM基准测试中显著提升了物理合理性和计算效率。

📝 摘要(中文)

本文提出LaviGen,一个将3D生成模型重新用于3D布局生成的框架。与以往从文本描述推断对象布局的方法不同,LaviGen直接在原生3D空间中操作,将布局生成建模为一个自回归过程,显式地建模对象之间的几何关系和物理约束,从而产生连贯且物理上合理的3D场景。为了进一步增强这一过程,我们提出了一种改进的3D扩散模型,该模型集成了场景、对象和指令信息,并采用双重引导自rollout蒸馏机制来提高效率和空间精度。在LayoutVLM基准上的大量实验表明,LaviGen实现了卓越的3D布局生成性能,物理合理性比最先进的方法高出19%,计算速度快65%。代码已公开。

🔬 方法详解

问题定义:现有3D布局生成方法主要依赖于文本描述,难以直接在3D空间中建模对象之间的几何关系和物理约束,导致生成的场景在物理上不合理,且缺乏空间连贯性。此外,现有方法的计算效率也存在瓶颈,限制了其在实际应用中的部署。

核心思路:LaviGen的核心思路是将3D布局生成问题转化为一个自回归过程,通过逐步添加对象到场景中,并显式地建模新对象与现有对象之间的几何关系和物理约束,从而保证生成场景的物理合理性和空间连贯性。此外,利用3D生成模型,特别是扩散模型,来指导自回归过程,提高生成质量和效率。

技术框架:LaviGen的整体框架包含以下几个主要模块:1) 自回归布局生成器:负责逐步生成3D场景布局,每次添加一个对象。2) 3D扩散模型:用于预测下一个要添加的对象,并提供生成指导。3) 双重引导自rollout蒸馏机制:用于提高扩散模型的效率和空间精度。整个流程从一个空的3D场景开始,自回归生成器根据当前场景状态和指令信息,利用3D扩散模型预测下一个要添加的对象,并将该对象添加到场景中。重复此过程,直到生成完整的3D布局。

关键创新:LaviGen的关键创新在于:1) 将3D布局生成建模为自回归过程,显式建模对象间的几何关系和物理约束。2) 提出了一种改进的3D扩散模型,集成了场景、对象和指令信息,从而更好地指导布局生成。3) 引入了双重引导自rollout蒸馏机制,显著提高了生成效率和空间精度。与现有方法相比,LaviGen能够生成更连贯、更物理合理的3D场景,并且计算效率更高。

关键设计:LaviGen的关键设计包括:1) 自回归生成器的设计,采用Transformer结构来建模对象之间的依赖关系。2) 3D扩散模型的改进,通过引入场景和指令信息,使其能够更好地适应布局生成任务。3) 双重引导自rollout蒸馏机制,利用教师模型生成的样本来训练学生模型,从而提高生成效率和空间精度。具体而言,损失函数包括扩散模型的重建损失、自回归生成器的交叉熵损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LaviGen在LayoutVLM基准测试中取得了显著的性能提升,物理合理性比最先进的方法高出19%,计算速度快65%。这些结果表明,LaviGen能够生成更逼真、更高效的3D场景布局,具有很强的实用价值。

🎯 应用场景

LaviGen在虚拟现实、增强现实、游戏开发、室内设计等领域具有广泛的应用前景。它可以用于自动生成逼真的3D场景,例如虚拟房间、游戏关卡等,从而节省大量的人工设计成本。此外,LaviGen还可以用于辅助室内设计,根据用户的需求自动生成符合要求的3D布局方案,提高设计效率。

📄 摘要(原文)

We introduce LaviGen, a framework that repurposes 3D generative models for 3D layout generation. Unlike previous methods that infer object layouts from textual descriptions, LaviGen operates directly in the native 3D space, formulating layout generation as an autoregressive process that explicitly models geometric relations and physical constraints among objects, producing coherent and physically plausible 3D scenes. To further enhance this process, we propose an adapted 3D diffusion model that integrates scene, object, and instruction information and employs a dual-guidance self-rollout distillation mechanism to improve efficiency and spatial accuracy. Extensive experiments on the LayoutVLM benchmark show LaviGen achieves superior 3D layout generation performance, with 19% higher physical plausibility than the state of the art and 65% faster computation. Our code is publicly available at https://github.com/fenghora/LaviGen.