CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

作者: Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu

分类: cs.CV

发布日期: 2024-05-30

备注: Project page: https://sites.google.com/view/clay-3dlm Video: https://youtu.be/YcKFp4U2Voo

💡 一句话要点

CLAY：一种可控的大规模生成模型，用于创建高质量3D资产

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D生成模型 几何生成 材质生成 扩散模型 变分自编码器 可控生成 PBR纹理

📋 核心要点

现有3D数字工具需要大量专业知识和努力，限制了人们将想象力转化为复杂3D世界的潜力。
CLAY通过多分辨率VAE和潜在扩散Transformer，从多样化的3D几何体中提取丰富的3D先验知识，实现可控的3D资产生成。
CLAY在超大型3D模型数据集上进行训练，生成具有15亿参数的3D原生几何体，并能生成2K分辨率的PBR纹理。

📝 摘要（中文）

本文介绍了一种名为CLAY的3D几何和材质生成器，旨在将人类的想象力轻松转化为复杂的3D数字结构，从而弥合数字创意领域中现有工具的局限性。CLAY支持经典的文本或图像输入，以及来自各种图元（多视图图像、体素、边界框、点云、隐式表示等）的3D感知控制。其核心是一个大规模生成模型，由多分辨率变分自编码器（VAE）和极简的潜在扩散Transformer（DiT）组成，直接从各种3D几何体中提取丰富的3D先验知识。具体来说，它采用神经场来表示连续和完整的表面，并在潜在空间中使用纯Transformer块的几何生成模块。我们提出了一种渐进式训练方案，在一个通过精心设计的处理流程获得的超大型3D模型数据集上训练CLAY，从而产生一个具有15亿参数的3D原生几何生成器。在外观生成方面，CLAY致力于通过采用多视图材质扩散模型来生成基于物理的渲染（PBR）纹理，该模型可以生成具有漫反射、粗糙度和金属模态的2K分辨率纹理。我们展示了使用CLAY进行一系列可控的3D资产创建，从草图概念设计到具有复杂细节的生产就绪资产。即使是初次使用的用户也可以轻松地使用CLAY将他们生动的3D想象变为现实，释放无限的创造力。

🔬 方法详解

问题定义：现有3D资产创建工具需要专业知识和大量人工，难以将人类的想象力快速转化为高质量的3D模型。现有方法在处理复杂几何体和材质时存在局限性，并且缺乏对生成过程的有效控制。

核心思路：CLAY的核心思路是利用大规模生成模型学习3D几何体和材质的先验知识，并通过可控的输入（如文本、图像、图元）引导生成过程。通过结合变分自编码器（VAE）和扩散Transformer（DiT），实现对3D资产的有效表示和生成。

技术框架：CLAY包含几何生成和材质生成两个主要模块。几何生成模块使用多分辨率VAE和潜在扩散Transformer，从3D数据集中学习几何先验。材质生成模块使用多视图材质扩散模型，生成基于物理的渲染（PBR）纹理。整体流程包括数据预处理、模型训练和可控生成三个阶段。

关键创新：CLAY的关键创新在于：1) 提出了一种基于VAE和DiT的几何生成模型，能够生成高质量的3D几何体；2) 采用多视图材质扩散模型，生成具有物理真实感的PBR纹理；3) 设计了一种渐进式训练方案，能够在大规模数据集上有效训练模型。

关键设计：几何生成模块使用多分辨率VAE提取几何特征，然后使用Transformer在潜在空间中生成几何体。材质生成模块使用多视图图像作为输入，通过扩散模型生成漫反射、粗糙度和金属度贴图。损失函数包括VAE的重构损失和DiT的扩散损失。网络结构采用Transformer块，并针对3D数据的特点进行了优化。

🖼️ 关键图片

📊 实验亮点

CLAY在多个3D资产生成任务上取得了显著的成果。实验表明，CLAY能够生成具有复杂几何细节和逼真材质的3D模型，并且可以通过文本、图像或图元进行有效控制。与现有方法相比，CLAY在生成质量、可控性和效率方面均有明显提升。用户研究表明，即使是初学者也能轻松使用CLAY创建出令人满意的3D资产。

🎯 应用场景

CLAY可广泛应用于游戏开发、电影制作、建筑设计、产品设计等领域。它可以帮助设计师和艺术家快速创建高质量的3D资产，提高工作效率，降低生产成本。未来，CLAY有望成为一种通用的3D内容创作工具，赋能更多人参与到3D世界的构建中。

📄 摘要（原文）

In the realm of digital creativity, our potential to craft intricate 3D worlds from imagination is often hampered by the limitations of existing digital tools, which demand extensive expertise and efforts. To narrow this disparity, we introduce CLAY, a 3D geometry and material generator designed to effortlessly transform human imagination into intricate 3D digital structures. CLAY supports classic text or image inputs as well as 3D-aware controls from diverse primitives (multi-view images, voxels, bounding boxes, point clouds, implicit representations, etc). At its core is a large-scale generative model composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a diverse range of 3D geometries. Specifically, it adopts neural fields to represent continuous and complete surfaces and uses a geometry generative module with pure transformer blocks in latent space. We present a progressive training scheme to train CLAY on an ultra large 3D model dataset obtained through a carefully designed processing pipeline, resulting in a 3D native geometry generator with 1.5 billion parameters. For appearance generation, CLAY sets out to produce physically-based rendering (PBR) textures by employing a multi-view material diffusion model that can generate 2K resolution textures with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for a range of controllable 3D asset creations, from sketchy conceptual designs to production ready assets with intricate details. Even first time users can easily use CLAY to bring their vivid 3D imaginations to life, unleashing unlimited creativity.

CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理