EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing

📄 arXiv: 2410.12836v2 📥 PDF

作者: Kaizhi Zheng, Xiaotong Chen, Xuehai He, Jing Gu, Linjie Li, Zhengyuan Yang, Kevin Lin, Jianfeng Wang, Lijuan Wang, Xin Eric Wang

分类: cs.GR, cs.AI, cs.CV, cs.HC

发布日期: 2024-10-03 (更新: 2025-04-01)


💡 一句话要点

EditRoom:利用LLM参数化的图扩散实现可组合的3D房间布局编辑

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景编辑 语言引导 大型语言模型 扩散模型 图神经网络

📋 核心要点

  1. 现有语言引导的3D场景编辑方法需要人工干预,或仅关注外观修改,不支持全面的场景布局更改。
  2. EditRoom利用LLM进行命令规划,并结合扩散模型生成目标场景,实现多种类型的布局编辑。
  3. 通过构建大规模数据集EditRoom-DB,并进行实验验证,证明了该方法在语言引导的场景布局编辑中具有优越的性能。

📝 摘要(中文)

针对专业3D软件学习曲线陡峭和3D资产管理耗时的问题,本文提出EditRoom,一个统一的框架,能够通过自然语言命令执行各种布局编辑,无需人工干预。EditRoom利用大型语言模型(LLM)进行命令规划,并使用基于扩散的方法生成目标场景,支持旋转、平移、缩放、替换、添加和移除六种编辑类型。为了解决语言引导的3D场景编辑数据匮乏的问题,我们开发了一个自动流程来扩充现有的3D场景合成数据集,并引入了EditRoom-DB,一个包含83k编辑对的大规模数据集,用于训练和评估。实验表明,我们的方法在所有指标上始终优于其他基线,表明在语言引导的场景布局编辑中具有更高的准确性和连贯性。

🔬 方法详解

问题定义:现有方法在语言引导的3D场景编辑中存在局限性,要么需要人工干预,要么只能修改外观,无法实现全面的场景布局编辑。这限制了其在虚拟现实、增强现实和游戏等领域的应用。现有方法缺乏对复杂编辑指令的理解和执行能力,以及缺乏大规模的训练数据。

核心思路:EditRoom的核心思路是利用大型语言模型(LLM)的强大语义理解能力,将自然语言指令转化为可执行的编辑计划,然后利用扩散模型生成符合编辑要求的3D场景。这种方法将语言理解和3D场景生成解耦,使得模型能够灵活地处理各种复杂的编辑指令。

技术框架:EditRoom的整体框架包含两个主要模块:命令规划模块和场景生成模块。命令规划模块使用LLM将自然语言指令解析为一系列具体的编辑操作,例如旋转、平移、缩放、替换、添加和移除。场景生成模块使用基于扩散模型的图神经网络,根据编辑操作生成目标3D场景。该框架还包括一个自动数据增强流程,用于生成大规模的训练数据集EditRoom-DB。

关键创新:EditRoom的关键创新在于将LLM和扩散模型结合起来,实现语言引导的3D场景布局编辑。具体来说,利用LLM进行命令规划,将复杂的自然语言指令分解为一系列可执行的编辑操作,然后利用扩散模型生成符合编辑要求的3D场景。这种方法不仅能够处理各种复杂的编辑指令,而且能够生成高质量的3D场景。

关键设计:EditRoom的关键设计包括:1) 使用预训练的LLM进行命令规划,利用其强大的语义理解能力;2) 使用基于扩散模型的图神经网络进行场景生成,能够生成高质量的3D场景;3) 设计了一个自动数据增强流程,用于生成大规模的训练数据集EditRoom-DB。具体参数设置和损失函数等细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EditRoom在EditRoom-DB数据集上进行了广泛的实验,结果表明,该方法在所有指标上都优于其他基线方法。具体来说,EditRoom在准确性和连贯性方面都取得了显著的提升,表明其在语言引导的场景布局编辑中具有更高的性能。论文中提供了详细的定量和定性结果,展示了EditRoom的优越性。

🎯 应用场景

EditRoom在虚拟现实、增强现实和游戏等领域具有广泛的应用前景。它可以用于快速创建和编辑3D场景,降低了3D内容创作的门槛。例如,用户可以通过简单的自然语言指令来设计自己的虚拟房间,或者修改游戏场景的布局。此外,EditRoom还可以用于自动化3D场景生成,例如根据文本描述生成3D场景。

📄 摘要(原文)

Given the steep learning curve of professional 3D software and the time-consuming process of managing large 3D assets, language-guided 3D scene editing has significant potential in fields such as virtual reality, augmented reality, and gaming. However, recent approaches to language-guided 3D scene editing either require manual interventions or focus only on appearance modifications without supporting comprehensive scene layout changes. In response, we propose EditRoom, a unified framework capable of executing a variety of layout edits through natural language commands, without requiring manual intervention. Specifically, EditRoom leverages Large Language Models (LLMs) for command planning and generates target scenes using a diffusion-based method, enabling six types of edits: rotate, translate, scale, replace, add, and remove. To address the lack of data for language-guided 3D scene editing, we have developed an automatic pipeline to augment existing 3D scene synthesis datasets and introduced EditRoom-DB, a large-scale dataset with 83k editing pairs, for training and evaluation. Our experiments demonstrate that our approach consistently outperforms other baselines across all metrics, indicating higher accuracy and coherence in language-guided scene layout editing.