SuperVoxelGPT: Adaptive and Ordered 3D Tokenization for Autoregressive Shape Generation

📄 arXiv: 2605.29655v2 📥 PDF

作者: Yuan Li, Congyi Zhang, Xifeng Gao, Xiaohu Guo

分类: cs.CV, cs.GR

发布日期: 2026-05-28 (更新: 2026-05-29)


💡 一句话要点

SuperVoxelGPT:自回归形状生成中自适应有序的3D Token化方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D生成 自回归模型 超体素 几何建模 多模态学习

📋 核心要点

  1. 现有3D生成方法在高分辨率形状生成中面临挑战,主要原因是3D token化方法无法在序列长度和空间信息保留之间取得平衡。
  2. SuperVoxelGPT通过预测几何显著性分布,自适应地划分超体素,在复杂区域使用细粒度单元,平滑区域使用粗粒度单元,从而优化token序列。
  3. 实验结果表明,SuperVoxelGPT显著降低了token序列长度,提高了生成质量,并实现了比现有方法更快的生成速度。

📝 摘要(中文)

自回归多模态大语言模型(MLLM)能够进行3D生成,但由于3D token化方法的不足,难以扩展到高分辨率形状。紧凑的基于集合的表示丢弃了确定的空间顺序,导致模糊的序列预测;而均匀或基于八叉树的体素网格虽然保留了顺序,但代价是严重的冗余和过长的序列。这种结构上的权衡限制了稳定和高效的自回归3D生成。我们提出了SuperVoxelGPT,这是一个表示优先的框架,通过自适应和确定性排序的超体素token化来解决这一问题。给定一个提示,我们首先预测一个粗略的几何显著性分布,并使用显著性引导的质心Voronoi镶嵌构建形状自适应的超体素划分,将细粒度的单元分配给复杂区域,将较大的单元分配给平滑区域。在文本和有序超体素布局的条件下,我们引入了SuperVoxelVAE,并微调了一个预训练的MLLM来自动回归地生成超体素token。在Trellis-500K上的实验表明,SuperVoxelGPT将token序列长度减少到均匀体素token化的12.8%,同时实现了最先进的生成质量,并且比先前的方法平均加速10倍。

🔬 方法详解

问题定义:现有自回归3D形状生成方法难以扩展到高分辨率形状,主要瓶颈在于3D token化。基于集合的表示方法虽然紧凑,但丢失了空间顺序信息,导致预测模糊;均匀体素或八叉树方法保留了顺序,但序列长度过长,计算成本高昂。

核心思路:SuperVoxelGPT的核心思路是采用自适应的超体素划分,根据形状的几何复杂度动态调整token的粒度。在几何细节丰富的区域使用更小的超体素,在平滑区域使用更大的超体素,从而在保证空间信息的同时,显著减少token序列的长度。

技术框架:SuperVoxelGPT包含以下主要阶段:1) 几何显著性预测:根据输入提示预测形状的几何显著性分布。2) 超体素划分:利用显著性引导的质心Voronoi镶嵌算法,生成自适应的超体素划分。3) 超体素VAE:训练一个SuperVoxelVAE,用于编码和解码超体素特征。4) 自回归生成:微调一个预训练的MLLM,以自回归的方式生成超体素token。

关键创新:SuperVoxelGPT的关键创新在于自适应的超体素token化方法。与传统的均匀体素或八叉树方法相比,SuperVoxelGPT能够根据形状的几何特征动态调整token的粒度,从而在保证生成质量的同时,显著减少token序列的长度,提高生成效率。

关键设计:几何显著性预测模块采用卷积神经网络,输入为文本提示,输出为体素级别的显著性概率。超体素划分采用质心Voronoi镶嵌算法,目标是最小化体素到其所属超体素质心的距离。SuperVoxelVAE采用标准的VAE结构,编码器和解码器均为卷积神经网络。自回归生成模块采用Transformer架构,输入为文本提示和有序的超体素布局,输出为超体素token序列。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SuperVoxelGPT在Trellis-500K数据集上取得了显著的性能提升。与均匀体素token化相比,SuperVoxelGPT将token序列长度减少到12.8%,同时实现了最先进的生成质量。此外,SuperVoxelGPT比先前的方法平均加速10倍,证明了其高效性和实用性。

🎯 应用场景

SuperVoxelGPT可应用于各种3D内容生成场景,例如游戏资产生成、虚拟现实环境构建、工业设计等。该方法能够显著提高3D生成的效率和质量,降低计算成本,并为用户提供更加灵活和可控的创作体验。未来,该技术有望推动3D内容创作的普及和发展。

📄 摘要(原文)

Autoregressive multimodal large language models (MLLMs) enable 3D generation but struggle to scale to high-resolution shapes due to inadequate 3D tokenizations. Compact set-based representations discard deterministic spatial ordering, leading to ambiguous sequence prediction, while uniform or octree-based voxel grids preserve ordering at the cost of severe redundancy and excessively long sequences. This structural trade-off limits stable and efficient autoregressive 3D generation. We present SuperVoxelGPT, a representation-first framework that resolves this tension through adaptive and deterministically ordered supervoxel tokenization. Given a prompt, we first predict a coarse geometric saliency distribution and construct a shape-adaptive supervoxel partition using saliency-guided centroidal Voronoi tessellation, allocating fine-grained cells to complex regions and larger cells to smooth regions. Conditioned on the text and ordered supervoxel layout, we introduce a SuperVoxelVAE and fine-tune a pretrained MLLM to autoregressively generate supervoxel tokens. Experiments on Trellis-500K show that SuperVoxelGPT reduces token sequence length to 12.8% of uniform voxel tokenization while achieving state-of-the-art generation quality and an average 10$\times$ speedup over prior methods.