AnyHome: Open-Vocabulary Generation of Structured and Textured 3D Homes

📄 arXiv: 2312.06644v3 📥 PDF

作者: Rao Fu, Zehao Wen, Zichen Liu, Srinath Sridhar

分类: cs.CV, cs.AI, cs.GR

发布日期: 2023-12-11 (更新: 2024-07-29)

备注: accepted by ECCV 2024


💡 一句话要点

AnyHome:提出一种基于开放词汇的结构化和纹理化3D家居场景生成框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景生成 文本到3D 大型语言模型 结构化表示 纹理生成

📋 核心要点

  1. 现有方法难以从文本生成具有良好结构和逼真纹理的房屋尺度3D室内场景。
  2. AnyHome利用大型语言模型将文本叙述转换为结构化表示,并结合几何约束和纹理优化。
  3. 实验结果表明,AnyHome在生成场景的细节、真实性和可编辑性方面优于现有方法。

📝 摘要(中文)

AnyHome是一个受认知理论启发的框架,可以将任何文本转换为结构良好且纹理化的房屋尺度室内场景。通过使用精心设计的模板提示大型语言模型(LLM),该方法将提供的文本叙述转换为非模态结构化表示。这些表示通过指导在定义的约束内合成几何网格,来保证一致且真实的 spatial layouts。然后,采用Score Distillation Sampling过程来细化几何形状,随后进行以自我为中心的修复过程,为其添加逼真的纹理。AnyHome以其可编辑性、可定制性、多样性和真实性而著称。场景的结构化表示允许在不同粒度级别进行广泛的编辑。AnyHome能够解释从简单标签到详细叙述的文本,生成详细的几何形状和纹理,在定量和定性指标上均优于现有方法。

🔬 方法详解

问题定义:现有方法在从文本生成3D室内场景时,难以保证场景的结构合理性、空间布局一致性以及纹理的真实感。尤其是在房屋尺度下,生成高质量的3D场景面临着更大的挑战,需要更强的语义理解和几何建模能力。现有方法通常难以实现对生成场景的精细控制和编辑。

核心思路:AnyHome的核心思路是利用大型语言模型(LLM)的强大语义理解能力,将文本描述转换为结构化的场景表示,然后基于这些结构化信息生成几何形状和纹理。通过引入几何约束和纹理优化,保证生成场景的合理性和真实感。这种方法将文本理解、几何建模和纹理生成解耦,使得场景生成过程更加可控和可编辑。

技术框架:AnyHome的整体框架包含以下几个主要阶段:1) 文本到结构化表示:使用精心设计的模板提示LLM,将文本叙述转换为非模态结构化表示,例如房间类型、家具摆放位置等。2) 几何网格生成:基于结构化表示,在定义的约束内合成几何网格,保证场景的空间布局一致性。3) 几何形状细化:采用Score Distillation Sampling (SDS) 过程来细化几何形状,提高场景的真实感。4) 纹理添加:通过以自我为中心的修复过程,为几何形状添加逼真的纹理。

关键创新:AnyHome的关键创新在于:1) 提出了一种基于LLM的文本到结构化场景表示的方法,能够有效地将文本描述转换为可用于3D场景生成的结构化信息。2) 结合几何约束和纹理优化,保证生成场景的合理性和真实感。3) 引入了以自我为中心的修复过程,能够生成高质量的纹理。

关键设计:AnyHome的关键设计包括:1) 精心设计的LLM提示模板,用于将文本叙述转换为结构化表示。2) 基于几何约束的网格生成方法,保证场景的空间布局一致性。3) Score Distillation Sampling (SDS) 过程的参数设置,用于细化几何形状。4) 以自我为中心的修复过程的网络结构和损失函数,用于生成高质量的纹理。

📊 实验亮点

AnyHome在定量和定性指标上均优于现有方法。通过实验证明,AnyHome能够生成更详细的几何形状和更逼真的纹理。此外,AnyHome的可编辑性使得用户可以轻松地对生成的场景进行修改和定制,而现有方法通常难以实现这一点。具体的性能数据(例如,在特定指标上的提升幅度)在论文中进行了详细的展示。

🎯 应用场景

AnyHome具有广泛的应用前景,包括虚拟现实、游戏开发、室内设计、建筑可视化等领域。它可以用于快速生成各种风格和布局的室内场景,为用户提供沉浸式的体验。此外,AnyHome的可编辑性使得用户可以根据自己的需求对生成的场景进行修改和定制,从而满足不同的应用需求。未来,AnyHome有望成为一种强大的3D内容生成工具,推动相关领域的发展。

📄 摘要(原文)

Inspired by cognitive theories, we introduce AnyHome, a framework that translates any text into well-structured and textured indoor scenes at a house-scale. By prompting Large Language Models (LLMs) with designed templates, our approach converts provided textual narratives into amodal structured representations. These representations guarantee consistent and realistic spatial layouts by directing the synthesis of a geometry mesh within defined constraints. A Score Distillation Sampling process is then employed to refine the geometry, followed by an egocentric inpainting process that adds lifelike textures to it. AnyHome stands out with its editability, customizability, diversity, and realism. The structured representations for scenes allow for extensive editing at varying levels of granularity. Capable of interpreting texts ranging from simple labels to detailed narratives, AnyHome generates detailed geometries and textures that outperform existing methods in both quantitative and qualitative measures.