CasaGPT: Cuboid Arrangement and Scene Assembly for Interior Design

📄 arXiv: 2504.19478v1 📥 PDF

作者: Weitao Feng, Hang Zhou, Jing Liao, Li Cheng, Wenbo Zhou

分类: cs.CV

发布日期: 2025-04-28


💡 一句话要点

CasaGPT:提出基于长方体排列的室内场景合成方法,提升场景真实感。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 室内场景合成 长方体排列 自回归模型 3D-FRONT 场景生成

📋 核心要点

  1. 现有室内场景合成方法依赖边界框,难以避免对象碰撞,且场景表达不够紧凑。
  2. CasaGPT采用自回归模型,通过顺序排列长方体图元来构建场景,实现紧凑且物理合理的场景生成。
  3. 实验表明,CasaGPT在场景真实感方面优于现有方法,并在改进后的3DFRONT-NC数据集上表现出色。

📝 摘要(中文)

本文提出了一种新颖的室内场景合成方法,该方法学习排列分解后的长方体图元来表示场景中的3D对象。与使用边界框确定3D对象的位置和比例的传统方法不同,我们的方法利用长方体作为一种直接而有效的对象建模替代方案。这可以在最小化对象相交的同时实现紧凑的场景生成。我们的方法,名为CasaGPT(长方体排列和场景组装),采用自回归模型来顺序排列长方体,从而生成物理上合理的场景。通过在微调阶段应用拒绝采样来过滤掉具有对象碰撞的场景,我们的模型进一步减少了相交并提高了场景质量。此外,我们引入了一个改进的数据集3DFRONT-NC,该数据集消除了原始数据集3D-FRONT中存在的显著噪声。在3D-FRONT数据集以及我们数据集上的大量实验表明,我们的方法始终优于最先进的方法,增强了生成场景的真实感,并为3D场景合成提供了有希望的方向。

🔬 方法详解

问题定义:现有室内场景合成方法主要依赖于边界框来确定3D对象的位置和比例,这种方法容易导致对象之间的碰撞,并且场景表达不够紧凑。此外,原始数据集(如3D-FRONT)中存在大量噪声,影响了模型的训练效果。

核心思路:CasaGPT的核心思路是将3D对象分解为长方体图元,并使用自回归模型顺序排列这些长方体,从而构建整个场景。这种方法可以有效地减少对象之间的碰撞,并实现更紧凑的场景表示。通过长方体这种简单而有效的几何表示,模型能够更好地学习场景的结构和布局。

技术框架:CasaGPT的整体框架包括以下几个主要阶段:1) 数据预处理:对原始3D-FRONT数据集进行清洗,得到噪声更少的3DFRONT-NC数据集。2) 长方体分解:将3D对象分解为一系列长方体图元。3) 自回归建模:使用自回归模型学习长方体的排列方式,生成场景。4) 微调与拒绝采样:在微调阶段,使用拒绝采样过滤掉具有对象碰撞的场景,进一步提高场景质量。

关键创新:CasaGPT最重要的技术创新点在于使用长方体图元作为场景表示的基本单元,并结合自回归模型进行场景生成。与传统的基于边界框的方法相比,这种方法能够更有效地避免对象碰撞,并实现更紧凑的场景表示。此外,通过引入拒绝采样机制,进一步提高了生成场景的质量。

关键设计:在自回归模型的训练过程中,使用了交叉熵损失函数来优化长方体的排列顺序。在拒绝采样阶段,设置了一个碰撞阈值,用于判断场景中是否存在对象碰撞。如果碰撞程度超过阈值,则该场景将被拒绝。此外,3DFRONT-NC数据集的构建也至关重要,它为模型的训练提供了更干净、更可靠的数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CasaGPT在3D-FRONT数据集和3DFRONT-NC数据集上进行了大量实验,结果表明该方法在场景真实感方面显著优于现有方法。通过定量评估和定性比较,证明了CasaGPT能够生成更逼真、更合理的室内场景。特别是在3DFRONT-NC数据集上,CasaGPT的性能得到了进一步提升,验证了数据清洗的重要性。

🎯 应用场景

CasaGPT在室内设计、虚拟现实、游戏开发等领域具有广泛的应用前景。它可以用于自动生成室内场景,辅助设计师进行方案设计,也可以用于创建逼真的虚拟环境,提升用户体验。未来,该技术有望应用于智能家居、机器人导航等领域,实现更智能化的场景理解和交互。

📄 摘要(原文)

We present a novel approach for indoor scene synthesis, which learns to arrange decomposed cuboid primitives to represent 3D objects within a scene. Unlike conventional methods that use bounding boxes to determine the placement and scale of 3D objects, our approach leverages cuboids as a straightforward yet highly effective alternative for modeling objects. This allows for compact scene generation while minimizing object intersections. Our approach, coined CasaGPT for Cuboid Arrangement and Scene Assembly, employs an autoregressive model to sequentially arrange cuboids, producing physically plausible scenes. By applying rejection sampling during the fine-tuning stage to filter out scenes with object collisions, our model further reduces intersections and enhances scene quality. Additionally, we introduce a refined dataset, 3DFRONT-NC, which eliminates significant noise presented in the original dataset, 3D-FRONT. Extensive experiments on the 3D-FRONT dataset as well as our dataset demonstrate that our approach consistently outperforms the state-of-the-art methods, enhancing the realism of generated scenes, and providing a promising direction for 3D scene synthesis.