OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation

作者: Si-Tong Wei, Rui-Huan Wang, Chuan-Zhi Zhou, Baoquan Chen, Peng-Shuai Wang

分类: cs.GR, cs.CV

发布日期: 2025-04-14 (更新: 2025-04-15)

备注: SIGGRAPH 2025

🔗 代码/项目: GITHUB

💡 一句话要点

OctGPT：基于八叉树的多尺度自回归模型，提升3D形状生成效率与质量。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 3D形状生成 自回归模型 八叉树 Transformer 多尺度表示 VQVAE 3D内容创作

📋 核心要点

现有3D形状生成的自回归模型在性能上显著落后于扩散模型，面临效率和质量的双重挑战。
OctGPT利用八叉树结构编码3D形状，结合VQVAE将形状转化为紧凑的多尺度二元序列，便于自回归预测。
通过八叉树Transformer、3D旋转位置编码等技术，OctGPT显著降低了训练和生成时间，并提升了生成质量。

📝 摘要（中文）

本文提出OctGPT，一种用于3D形状生成的新型多尺度自回归模型，它显著提高了现有3D自回归方法的效率和性能，并能与最先进的扩散模型相媲美甚至超越。该方法采用序列化的八叉树表示，以有效地捕获3D形状的层次和空间结构。粗略的几何形状通过八叉树结构进行编码，而精细的细节则由使用矢量量化变分自编码器(VQVAE)生成的二元token表示，从而将3D形状转换为紧凑的多尺度二元序列，适合自回归预测。为了应对处理长序列的计算挑战，我们结合了基于八叉树的Transformer，并增强了3D旋转位置编码、尺度特定嵌入和token并行生成方案。这些创新将训练时间减少了13倍，生成时间减少了69倍，从而能够在仅仅几天内，仅使用四个NVIDIA 4090 GPU高效训练高分辨率3D形状，例如$1024^3$。OctGPT在各种任务中展示了卓越的通用性，包括文本、草图和图像条件生成，以及涉及多个对象的场景级合成。大量实验表明，OctGPT加速了收敛，并提高了生成质量，优于先前的自回归方法，为高质量、可扩展的3D内容创建提供了一种新的范例。

🔬 方法详解

问题定义：论文旨在解决3D形状生成中，自回归模型效率低、生成质量不如扩散模型的问题。现有自回归方法在处理高分辨率3D数据时，计算复杂度高，难以捕捉形状的细节信息，导致生成速度慢、质量差。

核心思路：论文的核心思路是利用八叉树结构对3D形状进行多尺度表示，将复杂的3D数据转化为紧凑的序列化数据，从而降低计算复杂度，提高生成效率。同时，结合VQVAE提取形状的精细特征，保证生成质量。

技术框架：OctGPT的整体框架包括以下几个主要模块：1) 八叉树编码器：将3D形状转换为八叉树表示，捕捉形状的层次结构。2) VQVAE：将八叉树叶子节点处的体素数据编码为离散的二元token，提取精细特征。3) 八叉树Transformer：基于Transformer架构，利用八叉树结构进行序列建模，实现自回归生成。

关键创新：论文的关键创新在于：1) 提出了一种基于八叉树的多尺度表示方法，能够有效地压缩3D数据，降低计算复杂度。2) 设计了一种八叉树Transformer，能够充分利用八叉树的层次结构，提高建模能力。3) 引入了3D旋转位置编码和尺度特定嵌入，增强了Transformer对3D形状空间信息的感知能力。

关键设计：在八叉树Transformer中，使用了3D旋转位置编码来编码节点在空间中的位置信息。尺度特定嵌入用于区分不同尺度的特征。损失函数包括VQVAE的重构损失和Transformer的交叉熵损失。为了加速生成过程，采用了token并行生成方案。

🖼️ 关键图片

📊 实验亮点

实验结果表明，OctGPT在3D形状生成任务上取得了显著的性能提升。与之前的自回归方法相比，OctGPT的训练时间减少了13倍，生成时间减少了69倍。在ShapeNet数据集上，OctGPT的生成质量与最先进的扩散模型相当甚至更好。此外，OctGPT还展示了在文本、草图和图像条件生成任务上的出色表现。

🎯 应用场景

OctGPT在3D内容创作领域具有广泛的应用前景，例如游戏开发、虚拟现实、建筑设计、工业设计等。它可以用于生成各种类型的3D模型，包括家具、汽车、建筑物等。此外，OctGPT还可以用于3D场景合成，例如根据文本描述生成包含多个对象的3D场景。该研究有望推动3D内容创作的自动化和智能化。

📄 摘要（原文）

Autoregressive models have achieved remarkable success across various domains, yet their performance in 3D shape generation lags significantly behind that of diffusion models. In this paper, we introduce OctGPT, a novel multiscale autoregressive model for 3D shape generation that dramatically improves the efficiency and performance of prior 3D autoregressive approaches, while rivaling or surpassing state-of-the-art diffusion models. Our method employs a serialized octree representation to efficiently capture the hierarchical and spatial structures of 3D shapes. Coarse geometry is encoded via octree structures, while fine-grained details are represented by binary tokens generated using a vector quantized variational autoencoder (VQVAE), transforming 3D shapes into compact multiscale binary sequences suitable for autoregressive prediction. To address the computational challenges of handling long sequences, we incorporate octree-based transformers enhanced with 3D rotary positional encodings, scale-specific embeddings, and token-parallel generation schemes. These innovations reduce training time by 13 folds and generation time by 69 folds, enabling the efficient training of high-resolution 3D shapes, e.g.,$1024^3$, on just four NVIDIA 4090 GPUs only within days. OctGPT showcases exceptional versatility across various tasks, including text-, sketch-, and image-conditioned generation, as well as scene-level synthesis involving multiple objects. Extensive experiments demonstrate that OctGPT accelerates convergence and improves generation quality over prior autoregressive methods, offering a new paradigm for high-quality, scalable 3D content creation. Our code and trained models are available at https://github.com/octree-nn/octgpt.

OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理