SuperVoxelGPT: Adaptive and Ordered 3D Tokenization for Autoregressive Shape Generation
作者: Yuan Li, Congyi Zhang, Xifeng Gao, Xiaohu Guo
分类: cs.CV, cs.GR
发布日期: 2026-05-28
💡 一句话要点
SuperVoxelGPT:自回归形状生成的自适应有序3D Token化方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D生成 自回归模型 超体素 多模态学习 几何建模
📋 核心要点
- 现有3D生成方法在token化方面存在不足,集合表示缺乏空间顺序,体素网格则冗余度高,限制了生成质量和效率。
- SuperVoxelGPT通过预测几何显著性分布,自适应地划分超体素,在复杂区域使用细粒度单元,平滑区域使用粗粒度单元。
- 实验表明,SuperVoxelGPT显著减少了token序列长度,实现了state-of-the-art的生成质量,并大幅提升了生成速度。
📝 摘要(中文)
自回归多模态大语言模型(MLLM)能够进行3D生成,但由于3D token化方法的不足,难以扩展到高分辨率形状。紧凑的集合表示丢弃了确定性的空间顺序,导致模糊的序列预测;而均匀或基于八叉树的体素网格虽然保留了顺序,但代价是严重的冗余和过长的序列。这种结构上的权衡限制了稳定和高效的自回归3D生成。我们提出了SuperVoxelGPT,这是一个表示优先的框架,通过自适应和确定性排序的超体素token化来解决这个问题。给定一个提示,我们首先预测一个粗略的几何显著性分布,并使用显著性引导的质心Voronoi镶嵌构造一个形状自适应的超体素划分,将细粒度的单元分配给复杂区域,将较大的单元分配给平滑区域。在文本和有序超体素布局的条件下,我们引入了SuperVoxelVAE,并微调一个预训练的MLLM来自动回归地生成超体素token。在Trellis-500K上的实验表明,SuperVoxelGPT将token序列长度减少到均匀体素token化的12.8%,同时实现了最先进的生成质量,并且比先前的方法平均加速10倍。
🔬 方法详解
问题定义:现有自回归3D生成方法面临着token化表示的难题。基于集合的表示方法(如点云)虽然紧凑,但丢失了空间顺序信息,导致自回归生成过程中的歧义性。而基于体素网格的表示方法虽然保留了空间顺序,但由于均匀采样,造成了严重的冗余,导致序列过长,计算成本高昂。因此,如何在保持空间顺序的同时,减少冗余,是3D自回归生成面临的关键问题。
核心思路:SuperVoxelGPT的核心思路是采用自适应的超体素表示,并结合确定性的排序策略。通过预测几何显著性分布,将细粒度的超体素分配到形状复杂的区域,而将粗粒度的超体素分配到形状平滑的区域,从而在保证细节的同时,减少冗余。同时,通过确定性的排序策略,保证了自回归生成过程的稳定性。
技术框架:SuperVoxelGPT的整体框架包含以下几个主要阶段:1) 几何显著性预测:根据输入提示(如文本),预测3D形状的几何显著性分布。2) 超体素划分:基于预测的显著性分布,使用质心Voronoi镶嵌算法生成自适应的超体素划分。3) 超体素VAE:训练一个SuperVoxelVAE,用于编码和解码超体素特征。4) 自回归生成:微调一个预训练的MLLM,以自回归的方式生成超体素token序列。
关键创新:SuperVoxelGPT的关键创新在于其自适应的超体素表示和确定性的排序策略。与传统的均匀体素化方法相比,SuperVoxelGPT能够根据形状的复杂程度,自适应地调整超体素的大小,从而在保证细节的同时,显著减少冗余。与基于集合的表示方法相比,SuperVoxelGPT通过确定性的排序策略,保留了空间顺序信息,从而提高了自回归生成过程的稳定性。
关键设计:在几何显著性预测阶段,可以使用各种3D分割或显著性预测网络。在超体素划分阶段,质心Voronoi镶嵌算法需要设置合适的超体素数量,这取决于目标形状的复杂程度和计算资源。SuperVoxelVAE的设计需要平衡编码能力和计算效率。在自回归生成阶段,MLLM的微调需要仔细调整学习率和训练策略,以避免过拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SuperVoxelGPT在Trellis-500K数据集上取得了state-of-the-art的生成质量,并且将token序列长度减少到均匀体素token化的12.8%。此外,SuperVoxelGPT比先前的方法平均加速10倍,显著提高了3D生成的效率。这些结果验证了SuperVoxelGPT在自回归3D生成方面的优越性。
🎯 应用场景
SuperVoxelGPT在3D内容生成领域具有广泛的应用前景,例如游戏资产生成、虚拟现实场景构建、工业设计等。该方法能够根据文本描述自动生成高质量的3D模型,极大地提高了3D内容创作的效率。未来,SuperVoxelGPT有望应用于更复杂的3D场景生成,并与其他模态的信息(如图像、音频)相结合,实现更加智能化的3D内容生成。
📄 摘要(原文)
Autoregressive multimodal large language models (MLLMs) enable 3D generation but struggle to scale to high-resolution shapes due to inadequate 3D tokenizations. Compact set-based representations discard deterministic spatial ordering, leading to ambiguous sequence prediction, while uniform or octree-based voxel grids preserve ordering at the cost of severe redundancy and excessively long sequences. This structural trade-off limits stable and efficient autoregressive 3D generation. We present SuperVoxelGPT, a representation-first framework that resolves this tension through adaptive and deterministically ordered supervoxel tokenization. Given a prompt, we first predict a coarse geometric saliency distribution and construct a shape-adaptive supervoxel partition using saliency-guided centroidal Voronoi tessellation, allocating fine-grained cells to complex regions and larger cells to smooth regions. Conditioned on the text and ordered supervoxel layout, we introduce a SuperVoxelVAE and fine-tune a pretrained MLLM to autoregressively generate supervoxel tokens. Experiments on Trellis-500K show that SuperVoxelGPT reduces token sequence length to 12.8% of uniform voxel tokenization while achieving state-of-the-art generation quality and an average 10$\times$ speedup over prior methods.