Programmable-Room: Interactive Textured 3D Room Meshes Generation Empowered by Large Language Models

📄 arXiv: 2506.17707v1 📥 PDF

作者: Jihyun Kim, Junho Park, Kyeongbo Kong, Suk-Ju Kang

分类: cs.CV, cs.AI, cs.MM

发布日期: 2025-06-21

备注: Accepted by IEEE Transactions on Multimedia

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Programmable-Room:基于大语言模型的交互式纹理3D房间网格生成框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D房间生成 可视化编程 大型语言模型 全景纹理生成 扩散模型 交互式编辑 计算机视觉

📋 核心要点

  1. 现有3D房间生成方法难以实现细粒度的交互式编辑和控制,用户体验受限。
  2. Programmable-Room通过可视化编程,将复杂任务分解为模块化步骤,利用LLM生成可执行代码,实现灵活控制。
  3. 实验结果表明,该框架在3D房间网格生成和编辑方面优于现有模型,展示了其有效性和灵活性。

📝 摘要(中文)

本文提出Programmable-Room,一个交互式生成和编辑3D房间网格的框架,该框架以自然语言指令为输入。为了精确控制房间的每个属性,我们将这个具有挑战性的任务分解为更简单的步骤,例如为房间网格创建合理的3D坐标,生成用于纹理的全景图像,通过整合坐标和全景纹理图像来构建3D网格,以及布置家具。为了用统一的框架支持各种分解后的任务,我们采用了可视化编程(VP)。VP是一种利用大型语言模型(LLM)编写类似Python程序的的方法,该程序是针对自然语言中给定的各种任务的必要模块的有序列表。我们开发了大部分模块。特别地,对于纹理生成模块,我们利用预训练的大规模扩散模型来生成以文本和视觉提示(即布局、深度和语义图)为条件的全景图像。具体来说,我们通过使用从双向LSTM获得的全景场景的1D表示来优化训练目标,从而提高全景图像的生成质量。我们展示了Programmable-Room在生成和编辑3D房间网格方面的灵活性,并通过定量和定性地证明了我们的框架优于现有的模型。

🔬 方法详解

问题定义:现有3D房间生成方法通常缺乏细粒度的控制能力,用户难以根据自身需求进行精确的编辑和调整。此外,生成高质量的纹理也是一个挑战,尤其是在保持场景一致性的前提下。因此,如何实现交互式的、可编程的3D房间生成,并生成逼真的纹理,是本文要解决的核心问题。

核心思路:本文的核心思路是将复杂的3D房间生成任务分解为一系列更小的、可管理的子任务,例如3D坐标生成、全景纹理生成、网格构建和家具布置。通过可视化编程(VP),利用大型语言模型(LLM)自动生成执行这些子任务的Python代码,从而实现对整个生成过程的灵活控制。这种模块化的方法使得用户可以通过自然语言指令来定制房间的各个方面。

技术框架:Programmable-Room框架包含以下主要模块:1) 坐标生成模块:负责生成房间网格的3D坐标。2) 纹理生成模块:利用预训练的扩散模型,根据文本和视觉提示(布局、深度、语义图)生成全景纹理图像。3) 网格构建模块:将生成的3D坐标和全景纹理图像整合,构建3D网格模型。4) 家具布置模块:负责在房间中布置家具。整个流程由LLM生成的Python代码驱动,用户可以通过自然语言指令来控制每个模块的执行。

关键创新:该论文的关键创新在于将可视化编程(VP)引入到3D房间生成领域,利用LLM自动生成可执行代码,从而实现了对生成过程的细粒度控制。此外,通过优化训练目标,利用双向LSTM提取的全景场景1D表示,提高了全景纹理图像的生成质量。

关键设计:在纹理生成模块中,使用了预训练的大规模扩散模型,并结合文本和视觉提示。为了提高全景图像的质量,作者使用双向LSTM来提取全景场景的1D表示,并将其用于优化训练目标。具体的损失函数和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Programmable-Room在3D房间网格生成和编辑方面优于现有的模型。具体性能数据和对比基线在摘要中未明确给出,属于未知信息。但论文强调了该框架在生成和编辑方面的灵活性,并通过定量和定性实验证明了其优越性。

🎯 应用场景

Programmable-Room具有广泛的应用前景,包括虚拟现实(VR)、增强现实(AR)、游戏开发、室内设计和建筑可视化等领域。它可以帮助用户快速创建和定制3D房间模型,从而提高工作效率和创造力。此外,该框架还可以用于生成训练数据,以改进其他3D场景理解和生成算法。

📄 摘要(原文)

We present Programmable-Room, a framework which interactively generates and edits a 3D room mesh, given natural language instructions. For precise control of a room's each attribute, we decompose the challenging task into simpler steps such as creating plausible 3D coordinates for room meshes, generating panorama images for the texture, constructing 3D meshes by integrating the coordinates and panorama texture images, and arranging furniture. To support the various decomposed tasks with a unified framework, we incorporate visual programming (VP). VP is a method that utilizes a large language model (LLM) to write a Python-like program which is an ordered list of necessary modules for the various tasks given in natural language. We develop most of the modules. Especially, for the texture generating module, we utilize a pretrained large-scale diffusion model to generate panorama images conditioned on text and visual prompts (i.e., layout, depth, and semantic map) simultaneously. Specifically, we enhance the panorama image generation quality by optimizing the training objective with a 1D representation of a panorama scene obtained from bidirectional LSTM. We demonstrate Programmable-Room's flexibility in generating and editing 3D room meshes, and prove our framework's superiority to an existing model quantitatively and qualitatively. Project page is available in https://jihyun0510.github.io/Programmable_Room_Page/.