Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

作者: Yixuan Yang, Zhen Luo, Wanshui Gan, Jinkun Hao, Junru Lu, Jinghao Yan, Zhaoyang Lyu, Xudong Xu

分类: cs.CV, cs.GR

发布日期: 2026-05-18

💡 一句话要点

Code-as-Room：基于Agentic代码合成，从俯视图生成3D房间

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D房间生成 MLLM Agent 代码合成 俯视图图像 Blender代码

📋 核心要点

现有基于文本的方法难以捕捉精确的空间信息，而基于图像的agent在从俯视图生成完整房间时容易出现不稳定和无限循环的问题。
Code-as-Room框架利用MLLM agent，通过结构化的执行工具，将3D房间表示为Blender代码，从而实现精确控制和生成。
论文构建了专门的基准测试，并通过实验验证了所提出的执行工具的有效性，在3D房间合成任务上优于现有agent方法。

📝 摘要（中文）

本文提出了一种名为Code-as-Room的基于MLLM的agentic框架，用于从俯视图图像生成3D室内房间。该框架配备了一个结构化的执行工具，使用Blender代码表示3D房间。给定一个俯视房间图像，该框架解析参考图像以提取场景元素及其空间关系，并在一个有原则的多阶段管道中合成用于几何体、材质和光照的可执行Blender代码。维护一个跨阶段的记忆模块，以减轻现有基于agent的框架中固有的上下文遗忘问题。此外，本文还为基于代码的3D房间合成引入了一个专用基准，涵盖各种评估协议。基于该基准，进行了与现有基于agent的方法的全面比较，以验证所提出的执行工具的有效性。

🔬 方法详解

问题定义：现有方法在从俯视图图像生成3D房间时存在局限性。基于文本的方法难以精确捕捉空间信息，而现有的基于图像的agent在整体房间生成时容易出现不稳定和无限循环的问题，导致生成质量下降。因此，需要一种能够精确控制空间关系并稳定生成3D房间的方法。

核心思路：论文的核心思路是将3D房间表示为可执行的Blender代码。通过将房间建模过程转化为代码生成过程，可以实现对几何体、材质和光照的精确控制。同时，利用MLLM agent来生成代码，并设计结构化的执行工具来保证代码生成的稳定性和可靠性。

技术框架：Code-as-Room框架包含以下主要模块：1) 图像解析模块：从俯视图图像中提取场景元素及其空间关系；2) 代码生成模块：利用MLLM agent生成Blender代码，包括几何体、材质和光照的设置；3) 代码执行模块：执行生成的Blender代码，渲染出3D房间；4) 跨阶段记忆模块：维护一个跨阶段的记忆模块，用于在不同阶段之间传递上下文信息，缓解上下文遗忘问题。整个流程是一个多阶段的管道，每个阶段负责生成一部分代码，最终组合成完整的3D房间。

关键创新：最重要的技术创新点在于使用Blender代码作为3D房间的表示形式。与传统的基于文本或图像的表示方法相比，代码表示具有更高的精度和可控性。此外，跨阶段记忆模块也是一个重要的创新，它可以有效地缓解上下文遗忘问题，提高代码生成的质量。

关键设计：论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。但是，可以推断，代码生成模块可能使用了某种形式的强化学习或监督学习来训练MLLM agent。跨阶段记忆模块的具体实现方式也未知，可能使用了某种形式的注意力机制或记忆网络。

🖼️ 关键图片

📊 实验亮点

论文提出了一个专门用于基于代码的3D房间合成的基准测试。实验结果表明，所提出的Code-as-Room框架在3D房间合成任务上优于现有的基于agent的方法，验证了所提出的执行工具的有效性。具体的性能数据和提升幅度在摘要中没有明确给出，需要在论文正文中查找。

🎯 应用场景

该研究成果可应用于室内设计、虚拟现实、游戏开发和具身智能等领域。例如，室内设计师可以使用该系统快速生成各种风格的3D房间模型，虚拟现实开发者可以使用该系统创建逼真的虚拟环境，游戏开发者可以使用该系统生成游戏场景，具身智能研究者可以使用该系统生成训练环境。

📄 摘要（原文）

Designing realistic and functional 3D indoor rooms is essential for a wide range of applications, including interior design, virtual reality, gaming, and embodied AI. While recent MLLM-based approaches have shown great potential for 3D room synthesis from textual descriptions or reference images, text-based methods struggle to capture precise spatial information, and existing image-conditioned agents suffer from instability and infinite looping when tasked with holistic room generation from top-down views. To address these limitations, we propose Code-as-Room, an MLLM-based agentic framework equipped with a structured execution harness, which represents 3D rooms with Blender codes. Given a top-down room image, the framework parses the reference image to extract scene elements and their spatial relationships, and synthesizes executable Blender code for geometry, materials, and lighting in a principled, multi-stage pipeline. A cross-stage memory module is maintained throughout to mitigate context forgetting inherent to existing agent-based frameworks. We further introduce a dedicated benchmark for code-based 3D room synthesis, encompassing various evaluation protocols. Based on our benchmark, comprehensive comparisons against existing agent-based methods are conducted to validate the effectiveness of our proposed execution harness.

Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理