From Programs to Poses: Factored Real-World Scene Generation via Learned Program Libraries

📄 arXiv: 2510.10292v1 📥 PDF

作者: Joy Hsu, Emily Jin, Jiajun Wu, Niloy J. Mitra

分类: cs.CV, cs.AI

发布日期: 2025-10-11

备注: NeurIPS 2025


💡 一句话要点

FactoredScenes:通过学习程序库生成可分解的真实世界场景,解决数据稀缺问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 场景生成 3D场景 程序生成 物体姿态估计 真实世界场景

📋 核心要点

  1. 现有真实世界场景数据稀缺,难以生成具有多样物体姿态的逼真场景。
  2. FactoredScenes通过学习房间布局模式和物体姿态变化,分层生成逼真场景。
  3. 实验表明,FactoredScenes生成的场景与真实ScanNet场景难以区分,效果显著。

📝 摘要(中文)

真实世界场景(如ScanNet)难以捕获,可用数据非常有限。生成具有不同物体姿态的逼真场景仍然是一个开放且具有挑战性的任务。本文提出了FactoredScenes,一个通过利用房间的底层结构,同时学习居住场景中物体姿态的变化来合成逼真3D场景的框架。我们引入了一种分解表示,将场景分解为房间程序和物体姿态的分层组织概念。为了编码结构,FactoredScenes学习一个函数库,捕捉可重用的布局模式,从中绘制场景,然后使用大型语言模型生成由学习库规范的高级程序。为了表示场景变化,FactoredScenes学习一个程序条件模型,以分层预测物体姿态,并在场景中检索和放置3D物体。我们证明FactoredScenes生成逼真的真实世界房间,这些房间很难与真实的ScanNet场景区分开来。

🔬 方法详解

问题定义:论文旨在解决真实世界3D场景生成中数据稀缺的问题。现有方法难以捕捉真实场景中物体姿态的多样性和房间布局的复杂性,导致生成场景的真实感不足。现有方法通常依赖大量真实数据,而真实场景数据获取成本高昂。

核心思路:论文的核心思路是将场景分解为房间程序和物体姿态两个层次的概念。通过学习可重用的房间布局模式(房间程序)和程序条件下的物体姿态预测模型,FactoredScenes能够利用有限的数据生成多样且逼真的场景。这种分解表示能够更好地捕捉场景的结构信息和变化信息。

技术框架:FactoredScenes框架包含以下主要模块:1) 学习房间程序库:从真实场景数据中学习可重用的布局模式,构建房间程序库。2) 程序生成:使用大型语言模型生成高级程序,这些程序描述了房间的布局和物体之间的关系。程序生成过程受到学习到的房间程序库的约束。3) 物体姿态预测:基于生成的程序,分层预测场景中每个物体的姿态。4) 物体检索与放置:根据预测的姿态,从3D物体库中检索相应的物体,并将其放置到场景中。

关键创新:论文的关键创新在于提出了分解场景表示的方法,将场景分解为房间程序和物体姿态。这种分解表示能够更好地捕捉场景的结构信息和变化信息,从而提高生成场景的真实感。此外,论文还提出了程序条件下的物体姿态预测模型,该模型能够根据房间程序预测物体姿态,从而保证生成场景的布局合理性。

关键设计:论文使用大型语言模型(LLM)进行程序生成,并使用学习到的房间程序库对LLM的生成过程进行正则化,以保证生成程序的合理性。物体姿态预测模型采用分层结构,首先预测物体的大致位置,然后逐步细化姿态。损失函数包括姿态预测损失和场景合理性损失,以保证生成场景的真实感和布局合理性。

📊 实验亮点

实验结果表明,FactoredScenes生成的场景在真实感和布局合理性方面均优于现有方法。通过人工评估,FactoredScenes生成的场景与真实ScanNet场景难以区分。此外,实验还表明,FactoredScenes能够生成具有多样物体姿态的场景,并且能够根据用户指定的房间程序生成相应的场景。

🎯 应用场景

FactoredScenes可应用于虚拟现实、游戏开发、机器人仿真等领域。该技术能够生成逼真的3D场景,为这些应用提供高质量的训练数据和虚拟环境。此外,该技术还可以用于场景理解和场景编辑,例如,根据用户指定的房间程序生成相应的场景,或者根据用户编辑的场景自动调整物体姿态。

📄 摘要(原文)

Real-world scenes, such as those in ScanNet, are difficult to capture, with highly limited data available. Generating realistic scenes with varied object poses remains an open and challenging task. In this work, we propose FactoredScenes, a framework that synthesizes realistic 3D scenes by leveraging the underlying structure of rooms while learning the variation of object poses from lived-in scenes. We introduce a factored representation that decomposes scenes into hierarchically organized concepts of room programs and object poses. To encode structure, FactoredScenes learns a library of functions capturing reusable layout patterns from which scenes are drawn, then uses large language models to generate high-level programs, regularized by the learned library. To represent scene variations, FactoredScenes learns a program-conditioned model to hierarchically predict object poses, and retrieves and places 3D objects in a scene. We show that FactoredScenes generates realistic, real-world rooms that are difficult to distinguish from real ScanNet scenes.