SuperVoxelGPT: Adaptive and Ordered 3D Tokenization for Autoregressive Shape Generation

作者: Yuan Li, Congyi Zhang, Xifeng Gao, Xiaohu Guo

分类: cs.CV, cs.GR

发布日期: 2026-05-28

💡 一句话要点

SuperVoxelGPT：自回归形状生成的自适应有序3D Token化方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D生成 自回归模型 超体素 多模态学习 几何建模

📋 核心要点

现有3D生成方法在token化方面存在不足，集合表示缺乏空间顺序，体素网格则冗余度高，限制了生成质量和效率。
SuperVoxelGPT通过预测几何显著性分布，自适应地划分超体素，在复杂区域使用细粒度单元，平滑区域使用粗粒度单元。
实验表明，SuperVoxelGPT显著减少了token序列长度，实现了state-of-the-art的生成质量，并大幅提升了生成速度。

📝 摘要（中文）

自回归多模态大语言模型(MLLM)能够进行3D生成，但由于3D token化方法的不足，难以扩展到高分辨率形状。紧凑的集合表示丢弃了确定性的空间顺序，导致模糊的序列预测；而均匀或基于八叉树的体素网格虽然保留了顺序，但代价是严重的冗余和过长的序列。这种结构上的权衡限制了稳定和高效的自回归3D生成。我们提出了SuperVoxelGPT，这是一个表示优先的框架，通过自适应和确定性排序的超体素token化来解决这个问题。给定一个提示，我们首先预测一个粗略的几何显著性分布，并使用显著性引导的质心Voronoi镶嵌构造一个形状自适应的超体素划分，将细粒度的单元分配给复杂区域，将较大的单元分配给平滑区域。在文本和有序超体素布局的条件下，我们引入了SuperVoxelVAE，并微调一个预训练的MLLM来自动回归地生成超体素token。在Trellis-500K上的实验表明，SuperVoxelGPT将token序列长度减少到均匀体素token化的12.8%，同时实现了最先进的生成质量，并且比先前的方法平均加速10倍。

🔬 方法详解

问题定义：现有自回归3D生成方法面临着token化表示的难题。基于集合的表示方法（如点云）虽然紧凑，但丢失了空间顺序信息，导致自回归生成过程中的歧义性。而基于体素网格的表示方法虽然保留了空间顺序，但由于均匀采样，造成了严重的冗余，导致序列过长，计算成本高昂。因此，如何在保持空间顺序的同时，减少冗余，是3D自回归生成面临的关键问题。

核心思路：SuperVoxelGPT的核心思路是采用自适应的超体素表示，并结合确定性的排序策略。通过预测几何显著性分布，将细粒度的超体素分配到形状复杂的区域，而将粗粒度的超体素分配到形状平滑的区域，从而在保证细节的同时，减少冗余。同时，通过确定性的排序策略，保证了自回归生成过程的稳定性。

技术框架：SuperVoxelGPT的整体框架包含以下几个主要阶段：1) 几何显著性预测：根据输入提示（如文本），预测3D形状的几何显著性分布。2) 超体素划分：基于预测的显著性分布，使用质心Voronoi镶嵌算法生成自适应的超体素划分。3) 超体素VAE：训练一个SuperVoxelVAE，用于编码和解码超体素特征。4) 自回归生成：微调一个预训练的MLLM，以自回归的方式生成超体素token序列。

关键创新：SuperVoxelGPT的关键创新在于其自适应的超体素表示和确定性的排序策略。与传统的均匀体素化方法相比，SuperVoxelGPT能够根据形状的复杂程度，自适应地调整超体素的大小，从而在保证细节的同时，显著减少冗余。与基于集合的表示方法相比，SuperVoxelGPT通过确定性的排序策略，保留了空间顺序信息，从而提高了自回归生成过程的稳定性。

关键设计：在几何显著性预测阶段，可以使用各种3D分割或显著性预测网络。在超体素划分阶段，质心Voronoi镶嵌算法需要设置合适的超体素数量，这取决于目标形状的复杂程度和计算资源。SuperVoxelVAE的设计需要平衡编码能力和计算效率。在自回归生成阶段，MLLM的微调需要仔细调整学习率和训练策略，以避免过拟合。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SuperVoxelGPT在Trellis-500K数据集上取得了state-of-the-art的生成质量，并且将token序列长度减少到均匀体素token化的12.8%。此外，SuperVoxelGPT比先前的方法平均加速10倍，显著提高了3D生成的效率。这些结果验证了SuperVoxelGPT在自回归3D生成方面的优越性。

🎯 应用场景

SuperVoxelGPT在3D内容生成领域具有广泛的应用前景，例如游戏资产生成、虚拟现实场景构建、工业设计等。该方法能够根据文本描述自动生成高质量的3D模型，极大地提高了3D内容创作的效率。未来，SuperVoxelGPT有望应用于更复杂的3D场景生成，并与其他模态的信息（如图像、音频）相结合，实现更加智能化的3D内容生成。

📄 摘要（原文）

Autoregressive multimodal large language models (MLLMs) enable 3D generation but struggle to scale to high-resolution shapes due to inadequate 3D tokenizations. Compact set-based representations discard deterministic spatial ordering, leading to ambiguous sequence prediction, while uniform or octree-based voxel grids preserve ordering at the cost of severe redundancy and excessively long sequences. This structural trade-off limits stable and efficient autoregressive 3D generation. We present SuperVoxelGPT, a representation-first framework that resolves this tension through adaptive and deterministically ordered supervoxel tokenization. Given a prompt, we first predict a coarse geometric saliency distribution and construct a shape-adaptive supervoxel partition using saliency-guided centroidal Voronoi tessellation, allocating fine-grained cells to complex regions and larger cells to smooth regions. Conditioned on the text and ordered supervoxel layout, we introduce a SuperVoxelVAE and fine-tune a pretrained MLLM to autoregressively generate supervoxel tokens. Experiments on Trellis-500K show that SuperVoxelGPT reduces token sequence length to 12.8% of uniform voxel tokenization while achieving state-of-the-art generation quality and an average 10$\times$ speedup over prior methods.

SuperVoxelGPT: Adaptive and Ordered 3D Tokenization for Autoregressive Shape Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理