Interactive Scene Authoring with Specialized Generative Primitives

作者: Clément Jambon, Changwoon Choi, Dongsu Zhang, Olga Sorkine-Hornung, Young Min Kim

分类: cs.CV, cs.GR

发布日期: 2024-12-20

💡 一句话要点

提出基于生成原语的交互式场景创作框架，简化非专业用户3D场景设计。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D场景创作 生成原语 交互式设计 生成细胞自动机 3D高斯溅射

📋 核心要点

现有3D资产生成工具复杂，需要专业知识，非专业用户难以创作高质量3D场景。
提出专用生成原语框架，通过单样本学习和可控生成，简化3D场景创作流程。
实验表明，该方法能快速从真实场景提取原语，并交互式地创作3D资产和场景。

📝 摘要（中文）

本文提出了一种名为“专用生成原语”的生成框架，旨在让非专业用户能够以无缝、轻量且可控的方式创作高质量的3D场景。每个原语都是一个高效的生成模型，捕捉了真实世界中单个样本的分布。该框架首先将用户拍摄的环境视频通过3D高斯溅射转化为高质量的显式外观模型。然后，用户在语义感知特征的引导下选择感兴趣的区域。为了创建生成原语，本文改进了生成细胞自动机，使其适用于单样本训练和可控生成。通过在稀疏体素上操作，将生成任务与外观模型解耦，并通过后续的稀疏块一致性步骤恢复高质量的输出。每个原语都可以在10分钟内完成训练，并以完全组合的方式交互式地创作新场景。实验展示了从真实场景中提取各种原语并进行控制，在几分钟内创建3D资产和场景的交互式过程。此外，还展示了原语的其他功能：处理各种3D表示以控制生成、传递外观和编辑几何体。

🔬 方法详解

问题定义：现有3D场景创作工具通常需要用户具备专业的3D建模知识和复杂软件的操作技能，这对于非专业用户来说是一个巨大的门槛。现有的生成模型虽然可以生成3D内容，但往往缺乏对生成过程的精细控制，难以满足用户特定的创作需求。因此，如何降低3D场景创作的门槛，让非专业用户也能轻松创建高质量的3D场景是一个重要的研究问题。

核心思路：本文的核心思路是利用“专用生成原语”，将复杂的3D场景分解为一系列可控的、可重用的基本元素。每个原语都代表了真实世界中的一个特定对象或区域，例如一棵树、一扇窗户或一段墙壁。通过学习单个样本的分布，生成原语能够高效地捕捉对象的特征，并允许用户通过简单的交互操作来控制生成过程。这种方法将复杂的3D场景创作过程简化为对少量原语的组合和调整，从而降低了创作难度。

技术框架：该框架主要包含以下几个阶段：1) 场景捕获与重建：用户通过视频捕捉真实环境，利用3D高斯溅射技术重建高质量的3D场景，并生成显式的外观模型。2) 区域选择：用户在语义感知特征的引导下，选择感兴趣的区域作为生成原语的候选对象。3) 原语训练：针对每个选定的区域，利用改进的生成细胞自动机进行单样本训练，生成可控的生成原语。4) 场景创作：用户通过交互式操作，组合和调整生成的原语，创作新的3D场景。

关键创新：本文的关键创新在于将生成细胞自动机应用于单样本训练，并将其与3D高斯溅射技术相结合，实现了一种高效、可控的3D场景创作框架。与传统的生成模型相比，该方法不需要大量的训练数据，只需要单个样本即可生成高质量的3D对象。此外，通过将生成任务与外观模型解耦，该方法能够灵活地处理各种3D表示，并支持外观传递和几何编辑等功能。

关键设计：在生成细胞自动机的训练过程中，作者设计了一种特殊的损失函数，用于约束生成结果与原始样本之间的相似性。此外，为了提高生成结果的质量，作者还引入了一种稀疏块一致性步骤，用于消除生成过程中的伪影和噪声。具体的参数设置和网络结构在论文中有详细描述，但摘要中未明确给出。

🖼️ 关键图片

📊 实验亮点

该方法能够在10分钟内完成单个原语的训练，并支持交互式的场景创作。实验结果表明，该方法能够从真实场景中提取各种原语，并在几分钟内创建出高质量的3D资产和场景。此外，该方法还支持处理各种3D表示，并支持外观传递和几何编辑等功能，具有很强的灵活性和可扩展性。

🎯 应用场景

该研究成果可广泛应用于游戏开发、虚拟现实、建筑设计、室内设计等领域。非专业用户可以利用该框架快速创建高质量的3D场景，降低内容创作的门槛，提高创作效率。未来，该技术有望进一步发展，实现更加智能化的3D场景创作，例如自动生成场景布局、自动调整对象比例等。

📄 摘要（原文）

Generating high-quality 3D digital assets often requires expert knowledge of complex design tools. We introduce Specialized Generative Primitives, a generative framework that allows non-expert users to author high-quality 3D scenes in a seamless, lightweight, and controllable manner. Each primitive is an efficient generative model that captures the distribution of a single exemplar from the real world. With our framework, users capture a video of an environment, which we turn into a high-quality and explicit appearance model thanks to 3D Gaussian Splatting. Users then select regions of interest guided by semantically-aware features. To create a generative primitive, we adapt Generative Cellular Automata to single-exemplar training and controllable generation. We decouple the generative task from the appearance model by operating on sparse voxels and we recover a high-quality output with a subsequent sparse patch consistency step. Each primitive can be trained within 10 minutes and used to author new scenes interactively in a fully compositional manner. We showcase interactive sessions where various primitives are extracted from real-world scenes and controlled to create 3D assets and scenes in a few minutes. We also demonstrate additional capabilities of our primitives: handling various 3D representations to control generation, transferring appearances, and editing geometries.

Interactive Scene Authoring with Specialized Generative Primitives

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理