EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing

作者: Kaizhi Zheng, Xiaotong Chen, Xuehai He, Jing Gu, Linjie Li, Zhengyuan Yang, Kevin Lin, Jianfeng Wang, Lijuan Wang, Xin Eric Wang

分类: cs.GR, cs.AI, cs.CV, cs.HC

发布日期: 2024-10-03 (更新: 2025-04-01)

💡 一句话要点

EditRoom：利用LLM参数化的图扩散实现可组合的3D房间布局编辑

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D场景编辑 语言引导 大型语言模型 扩散模型 图神经网络

📋 核心要点

现有语言引导的3D场景编辑方法需要人工干预，或仅关注外观修改，不支持全面的场景布局更改。
EditRoom利用LLM进行命令规划，并结合扩散模型生成目标场景，实现多种类型的布局编辑。
通过构建大规模数据集EditRoom-DB，并进行实验验证，证明了该方法在语言引导的场景布局编辑中具有优越的性能。

📝 摘要（中文）

针对专业3D软件学习曲线陡峭和3D资产管理耗时的问题，本文提出EditRoom，一个统一的框架，能够通过自然语言命令执行各种布局编辑，无需人工干预。EditRoom利用大型语言模型（LLM）进行命令规划，并使用基于扩散的方法生成目标场景，支持旋转、平移、缩放、替换、添加和移除六种编辑类型。为了解决语言引导的3D场景编辑数据匮乏的问题，我们开发了一个自动流程来扩充现有的3D场景合成数据集，并引入了EditRoom-DB，一个包含83k编辑对的大规模数据集，用于训练和评估。实验表明，我们的方法在所有指标上始终优于其他基线，表明在语言引导的场景布局编辑中具有更高的准确性和连贯性。

🔬 方法详解

问题定义：现有方法在语言引导的3D场景编辑中存在局限性，要么需要人工干预，要么只能修改外观，无法实现全面的场景布局编辑。这限制了其在虚拟现实、增强现实和游戏等领域的应用。现有方法缺乏对复杂编辑指令的理解和执行能力，以及缺乏大规模的训练数据。

核心思路：EditRoom的核心思路是利用大型语言模型（LLM）的强大语义理解能力，将自然语言指令转化为可执行的编辑计划，然后利用扩散模型生成符合编辑要求的3D场景。这种方法将语言理解和3D场景生成解耦，使得模型能够灵活地处理各种复杂的编辑指令。

技术框架：EditRoom的整体框架包含两个主要模块：命令规划模块和场景生成模块。命令规划模块使用LLM将自然语言指令解析为一系列具体的编辑操作，例如旋转、平移、缩放、替换、添加和移除。场景生成模块使用基于扩散模型的图神经网络，根据编辑操作生成目标3D场景。该框架还包括一个自动数据增强流程，用于生成大规模的训练数据集EditRoom-DB。

关键创新：EditRoom的关键创新在于将LLM和扩散模型结合起来，实现语言引导的3D场景布局编辑。具体来说，利用LLM进行命令规划，将复杂的自然语言指令分解为一系列可执行的编辑操作，然后利用扩散模型生成符合编辑要求的3D场景。这种方法不仅能够处理各种复杂的编辑指令，而且能够生成高质量的3D场景。

关键设计：EditRoom的关键设计包括：1) 使用预训练的LLM进行命令规划，利用其强大的语义理解能力；2) 使用基于扩散模型的图神经网络进行场景生成，能够生成高质量的3D场景；3) 设计了一个自动数据增强流程，用于生成大规模的训练数据集EditRoom-DB。具体参数设置和损失函数等细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

EditRoom在EditRoom-DB数据集上进行了广泛的实验，结果表明，该方法在所有指标上都优于其他基线方法。具体来说，EditRoom在准确性和连贯性方面都取得了显著的提升，表明其在语言引导的场景布局编辑中具有更高的性能。论文中提供了详细的定量和定性结果，展示了EditRoom的优越性。

🎯 应用场景

EditRoom在虚拟现实、增强现实和游戏等领域具有广泛的应用前景。它可以用于快速创建和编辑3D场景，降低了3D内容创作的门槛。例如，用户可以通过简单的自然语言指令来设计自己的虚拟房间，或者修改游戏场景的布局。此外，EditRoom还可以用于自动化3D场景生成，例如根据文本描述生成3D场景。

📄 摘要（原文）

Given the steep learning curve of professional 3D software and the time-consuming process of managing large 3D assets, language-guided 3D scene editing has significant potential in fields such as virtual reality, augmented reality, and gaming. However, recent approaches to language-guided 3D scene editing either require manual interventions or focus only on appearance modifications without supporting comprehensive scene layout changes. In response, we propose EditRoom, a unified framework capable of executing a variety of layout edits through natural language commands, without requiring manual intervention. Specifically, EditRoom leverages Large Language Models (LLMs) for command planning and generates target scenes using a diffusion-based method, enabling six types of edits: rotate, translate, scale, replace, add, and remove. To address the lack of data for language-guided 3D scene editing, we have developed an automatic pipeline to augment existing 3D scene synthesis datasets and introduced EditRoom-DB, a large-scale dataset with 83k editing pairs, for training and evaluation. Our experiments demonstrate that our approach consistently outperforms other baselines across all metrics, indicating higher accuracy and coherence in language-guided scene layout editing.

EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理