CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians

📄 arXiv: 2410.20723v1 📥 PDF

作者: Chongjian Ge, Chenfeng Xu, Yuanfeng Ji, Chensheng Peng, Masayoshi Tomizuka, Ping Luo, Mingyu Ding, Varun Jampani, Wei Zhan

分类: cs.CV

发布日期: 2024-10-28

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

CompGS:利用动态优化的3D高斯,释放2D可组合性,实现可组合的文本到3D生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 文本到3D生成 可组合性 3D高斯溅射 动态优化 场景生成

📋 核心要点

  1. 现有文本到3D生成方法难以生成具有合理交互的多个对象,即面临可组合3D生成难题。
  2. CompGS将2D可组合性迁移到3D高斯初始化,并提出动态优化策略,在实体和组合层面优化。
  3. 实验表明,CompGS在图像质量和语义对齐方面优于现有方法,并可扩展到可控3D编辑。

📝 摘要(中文)

本文提出了一种名为CompGS的生成框架,该框架采用3D高斯溅射(GS)技术,用于高效地生成可组合的文本到3D内容。为了实现这一目标,论文提出了两个核心设计:(1)基于2D可组合性的3D高斯初始化:将成熟的2D可组合性迁移到高斯参数的初始化上,以实体为单位进行,确保每个实体具有一致的3D先验知识,以及多个实体之间合理的交互;(2)动态优化:提出了一种动态策略,使用Score Distillation Sampling (SDS) 损失来优化3D高斯。CompGS首先自动将3D高斯分解为不同的实体部分,从而能够在实体和组合级别上进行优化。此外,CompGS通过动态调整每个实体的空间参数来优化不同尺度的对象,从而增强了对精细细节的生成,尤其是在较小的实体中。在T3Bench上的定性和定量比较表明,CompGS在生成具有卓越图像质量和语义对齐的可组合3D对象方面优于现有方法。CompGS还可以轻松扩展到可控的3D编辑,从而促进场景生成。希望CompGS能为可组合3D生成提供新的见解。

🔬 方法详解

问题定义:论文旨在解决可组合的文本到3D生成问题,即如何根据文本描述生成多个具有合理交互的3D对象。现有方法在生成单个高质量3D对象方面取得了进展,但在生成多个对象并保证它们之间的语义关系和空间交互方面仍然存在挑战。现有方法难以兼顾整体场景的连贯性和各个对象的细节。

核心思路:论文的核心思路是将成熟的2D图像可组合性知识迁移到3D生成中。通过在3D高斯初始化阶段引入2D先验,确保每个实体具有合理的3D形状和外观,并且多个实体之间存在合理的空间关系。此外,通过动态优化策略,允许不同尺度的对象进行优化,从而提升细节生成能力。

技术框架:CompGS框架主要包含两个阶段:1) 3D高斯初始化阶段:利用2D可组合性先验初始化3D高斯参数,为每个实体赋予合理的3D形状和空间关系。2) 动态优化阶段:使用Score Distillation Sampling (SDS) 损失函数,在实体和组合层面动态优化3D高斯参数,提升生成质量和语义对齐。

关键创新:论文的关键创新在于将2D可组合性引入到3D高斯初始化中,并提出了动态优化策略。与现有方法相比,CompGS能够更好地处理多个对象之间的交互关系,并生成更精细的细节。动态优化策略允许不同尺度的对象进行差异化优化,从而提升整体生成质量。

关键设计:在3D高斯初始化阶段,论文利用预训练的2D扩散模型生成每个实体的图像,并将其投影到3D空间中,初始化3D高斯参数。在动态优化阶段,论文使用SDS损失函数,并根据实体的尺度动态调整空间参数,以优化不同尺度的对象。此外,论文还设计了一种自动分解3D高斯的方法,将整体场景分解为不同的实体部分,从而能够在实体层面进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CompGS在T3Bench数据集上进行了评估,实验结果表明,CompGS在图像质量和语义对齐方面均优于现有方法。具体而言,CompGS在FID指标上取得了显著提升,表明其生成的图像更逼真、更符合文本描述。此外,CompGS还能够生成具有合理交互的多个对象,并能够处理不同尺度的对象。

🎯 应用场景

CompGS具有广泛的应用前景,例如虚拟现实、游戏开发、电影制作和工业设计等领域。它可以用于快速生成复杂的3D场景,并允许用户通过文本描述控制场景的内容和布局。此外,CompGS还可以用于3D内容编辑,例如修改现有3D场景中的对象或添加新的对象。该技术有望降低3D内容创作的门槛,并促进3D技术的普及。

📄 摘要(原文)

Recent breakthroughs in text-guided image generation have significantly advanced the field of 3D generation. While generating a single high-quality 3D object is now feasible, generating multiple objects with reasonable interactions within a 3D space, a.k.a. compositional 3D generation, presents substantial challenges. This paper introduces CompGS, a novel generative framework that employs 3D Gaussian Splatting (GS) for efficient, compositional text-to-3D content generation. To achieve this goal, two core designs are proposed: (1) 3D Gaussians Initialization with 2D compositionality: We transfer the well-established 2D compositionality to initialize the Gaussian parameters on an entity-by-entity basis, ensuring both consistent 3D priors for each entity and reasonable interactions among multiple entities; (2) Dynamic Optimization: We propose a dynamic strategy to optimize 3D Gaussians using Score Distillation Sampling (SDS) loss. CompGS first automatically decomposes 3D Gaussians into distinct entity parts, enabling optimization at both the entity and composition levels. Additionally, CompGS optimizes across objects of varying scales by dynamically adjusting the spatial parameters of each entity, enhancing the generation of fine-grained details, particularly in smaller entities. Qualitative comparisons and quantitative evaluations on T3Bench demonstrate the effectiveness of CompGS in generating compositional 3D objects with superior image quality and semantic alignment over existing methods. CompGS can also be easily extended to controllable 3D editing, facilitating scene generation. We hope CompGS will provide new insights to the compositional 3D generation. Project page: https://chongjiange.github.io/compgs.html.