Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

📄 arXiv: 2605.18451v1 📥 PDF

作者: Yixuan Yang, Zhen Luo, Wanshui Gan, Jinkun Hao, Junru Lu, Jinghao Yan, Zhaoyang Lyu, Xudong Xu

分类: cs.CV, cs.GR

发布日期: 2026-05-18


💡 一句话要点

Code-as-Room:基于Agentic代码合成,从俯视图生成3D房间

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D房间生成 MLLM Agent 代码合成 俯视图图像 Blender代码

📋 核心要点

  1. 现有基于文本的方法难以捕捉精确的空间信息,而基于图像的agent在从俯视图生成完整房间时容易出现不稳定和无限循环的问题。
  2. Code-as-Room框架利用MLLM agent,通过结构化的执行工具,将3D房间表示为Blender代码,从而实现精确控制和生成。
  3. 论文构建了专门的基准测试,并通过实验验证了所提出的执行工具的有效性,在3D房间合成任务上优于现有agent方法。

📝 摘要(中文)

本文提出了一种名为Code-as-Room的基于MLLM的agentic框架,用于从俯视图图像生成3D室内房间。该框架配备了一个结构化的执行工具,使用Blender代码表示3D房间。给定一个俯视房间图像,该框架解析参考图像以提取场景元素及其空间关系,并在一个有原则的多阶段管道中合成用于几何体、材质和光照的可执行Blender代码。维护一个跨阶段的记忆模块,以减轻现有基于agent的框架中固有的上下文遗忘问题。此外,本文还为基于代码的3D房间合成引入了一个专用基准,涵盖各种评估协议。基于该基准,进行了与现有基于agent的方法的全面比较,以验证所提出的执行工具的有效性。

🔬 方法详解

问题定义:现有方法在从俯视图图像生成3D房间时存在局限性。基于文本的方法难以精确捕捉空间信息,而现有的基于图像的agent在整体房间生成时容易出现不稳定和无限循环的问题,导致生成质量下降。因此,需要一种能够精确控制空间关系并稳定生成3D房间的方法。

核心思路:论文的核心思路是将3D房间表示为可执行的Blender代码。通过将房间建模过程转化为代码生成过程,可以实现对几何体、材质和光照的精确控制。同时,利用MLLM agent来生成代码,并设计结构化的执行工具来保证代码生成的稳定性和可靠性。

技术框架:Code-as-Room框架包含以下主要模块:1) 图像解析模块:从俯视图图像中提取场景元素及其空间关系;2) 代码生成模块:利用MLLM agent生成Blender代码,包括几何体、材质和光照的设置;3) 代码执行模块:执行生成的Blender代码,渲染出3D房间;4) 跨阶段记忆模块:维护一个跨阶段的记忆模块,用于在不同阶段之间传递上下文信息,缓解上下文遗忘问题。整个流程是一个多阶段的管道,每个阶段负责生成一部分代码,最终组合成完整的3D房间。

关键创新:最重要的技术创新点在于使用Blender代码作为3D房间的表示形式。与传统的基于文本或图像的表示方法相比,代码表示具有更高的精度和可控性。此外,跨阶段记忆模块也是一个重要的创新,它可以有效地缓解上下文遗忘问题,提高代码生成的质量。

关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。但是,可以推断,代码生成模块可能使用了某种形式的强化学习或监督学习来训练MLLM agent。跨阶段记忆模块的具体实现方式也未知,可能使用了某种形式的注意力机制或记忆网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了一个专门用于基于代码的3D房间合成的基准测试。实验结果表明,所提出的Code-as-Room框架在3D房间合成任务上优于现有的基于agent的方法,验证了所提出的执行工具的有效性。具体的性能数据和提升幅度在摘要中没有明确给出,需要在论文正文中查找。

🎯 应用场景

该研究成果可应用于室内设计、虚拟现实、游戏开发和具身智能等领域。例如,室内设计师可以使用该系统快速生成各种风格的3D房间模型,虚拟现实开发者可以使用该系统创建逼真的虚拟环境,游戏开发者可以使用该系统生成游戏场景,具身智能研究者可以使用该系统生成训练环境。

📄 摘要(原文)

Designing realistic and functional 3D indoor rooms is essential for a wide range of applications, including interior design, virtual reality, gaming, and embodied AI. While recent MLLM-based approaches have shown great potential for 3D room synthesis from textual descriptions or reference images, text-based methods struggle to capture precise spatial information, and existing image-conditioned agents suffer from instability and infinite looping when tasked with holistic room generation from top-down views. To address these limitations, we propose Code-as-Room, an MLLM-based agentic framework equipped with a structured execution harness, which represents 3D rooms with Blender codes. Given a top-down room image, the framework parses the reference image to extract scene elements and their spatial relationships, and synthesizes executable Blender code for geometry, materials, and lighting in a principled, multi-stage pipeline. A cross-stage memory module is maintained throughout to mitigate context forgetting inherent to existing agent-based frameworks. We further introduce a dedicated benchmark for code-based 3D room synthesis, encompassing various evaluation protocols. Based on our benchmark, comprehensive comparisons against existing agent-based methods are conducted to validate the effectiveness of our proposed execution harness.