SuperVoxelGPT: Adaptive and Ordered 3D Tokenization for Autoregressive Shape Generation

作者: Yuan Li, Congyi Zhang, Xifeng Gao, Xiaohu Guo

分类: cs.CV, cs.GR

发布日期: 2026-05-28 (更新: 2026-05-29)

💡 一句话要点

SuperVoxelGPT：自回归形状生成中自适应有序的3D Token化方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D生成 自回归模型 超体素 几何建模 多模态学习

📋 核心要点

现有3D生成方法在高分辨率形状生成中面临挑战，主要原因是3D token化方法无法在序列长度和空间信息保留之间取得平衡。
SuperVoxelGPT通过预测几何显著性分布，自适应地划分超体素，在复杂区域使用细粒度单元，平滑区域使用粗粒度单元，从而优化token序列。
实验结果表明，SuperVoxelGPT显著降低了token序列长度，提高了生成质量，并实现了比现有方法更快的生成速度。

📝 摘要（中文）

自回归多模态大语言模型(MLLM)能够进行3D生成，但由于3D token化方法的不足，难以扩展到高分辨率形状。紧凑的基于集合的表示丢弃了确定的空间顺序，导致模糊的序列预测；而均匀或基于八叉树的体素网格虽然保留了顺序，但代价是严重的冗余和过长的序列。这种结构上的权衡限制了稳定和高效的自回归3D生成。我们提出了SuperVoxelGPT，这是一个表示优先的框架，通过自适应和确定性排序的超体素token化来解决这一问题。给定一个提示，我们首先预测一个粗略的几何显著性分布，并使用显著性引导的质心Voronoi镶嵌构建形状自适应的超体素划分，将细粒度的单元分配给复杂区域，将较大的单元分配给平滑区域。在文本和有序超体素布局的条件下，我们引入了SuperVoxelVAE，并微调了一个预训练的MLLM来自动回归地生成超体素token。在Trellis-500K上的实验表明，SuperVoxelGPT将token序列长度减少到均匀体素token化的12.8%，同时实现了最先进的生成质量，并且比先前的方法平均加速10倍。

🔬 方法详解

问题定义：现有自回归3D形状生成方法难以扩展到高分辨率形状，主要瓶颈在于3D token化。基于集合的表示方法虽然紧凑，但丢失了空间顺序信息，导致预测模糊；均匀体素或八叉树方法保留了顺序，但序列长度过长，计算成本高昂。

核心思路：SuperVoxelGPT的核心思路是采用自适应的超体素划分，根据形状的几何复杂度动态调整token的粒度。在几何细节丰富的区域使用更小的超体素，在平滑区域使用更大的超体素，从而在保证空间信息的同时，显著减少token序列的长度。

技术框架：SuperVoxelGPT包含以下主要阶段：1) 几何显著性预测：根据输入提示预测形状的几何显著性分布。2) 超体素划分：利用显著性引导的质心Voronoi镶嵌算法，生成自适应的超体素划分。3) 超体素VAE：训练一个SuperVoxelVAE，用于编码和解码超体素特征。4) 自回归生成：微调一个预训练的MLLM，以自回归的方式生成超体素token。

关键创新：SuperVoxelGPT的关键创新在于自适应的超体素token化方法。与传统的均匀体素或八叉树方法相比，SuperVoxelGPT能够根据形状的几何特征动态调整token的粒度，从而在保证生成质量的同时，显著减少token序列的长度，提高生成效率。

关键设计：几何显著性预测模块采用卷积神经网络，输入为文本提示，输出为体素级别的显著性概率。超体素划分采用质心Voronoi镶嵌算法，目标是最小化体素到其所属超体素质心的距离。SuperVoxelVAE采用标准的VAE结构，编码器和解码器均为卷积神经网络。自回归生成模块采用Transformer架构，输入为文本提示和有序的超体素布局，输出为超体素token序列。

🖼️ 关键图片

📊 实验亮点

SuperVoxelGPT在Trellis-500K数据集上取得了显著的性能提升。与均匀体素token化相比，SuperVoxelGPT将token序列长度减少到12.8%，同时实现了最先进的生成质量。此外，SuperVoxelGPT比先前的方法平均加速10倍，证明了其高效性和实用性。

🎯 应用场景

SuperVoxelGPT可应用于各种3D内容生成场景，例如游戏资产生成、虚拟现实环境构建、工业设计等。该方法能够显著提高3D生成的效率和质量，降低计算成本，并为用户提供更加灵活和可控的创作体验。未来，该技术有望推动3D内容创作的普及和发展。

📄 摘要（原文）

Autoregressive multimodal large language models (MLLMs) enable 3D generation but struggle to scale to high-resolution shapes due to inadequate 3D tokenizations. Compact set-based representations discard deterministic spatial ordering, leading to ambiguous sequence prediction, while uniform or octree-based voxel grids preserve ordering at the cost of severe redundancy and excessively long sequences. This structural trade-off limits stable and efficient autoregressive 3D generation. We present SuperVoxelGPT, a representation-first framework that resolves this tension through adaptive and deterministically ordered supervoxel tokenization. Given a prompt, we first predict a coarse geometric saliency distribution and construct a shape-adaptive supervoxel partition using saliency-guided centroidal Voronoi tessellation, allocating fine-grained cells to complex regions and larger cells to smooth regions. Conditioned on the text and ordered supervoxel layout, we introduce a SuperVoxelVAE and fine-tune a pretrained MLLM to autoregressively generate supervoxel tokens. Experiments on Trellis-500K show that SuperVoxelGPT reduces token sequence length to 12.8% of uniform voxel tokenization while achieving state-of-the-art generation quality and an average 10$\times$ speedup over prior methods.

SuperVoxelGPT: Adaptive and Ordered 3D Tokenization for Autoregressive Shape Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理