Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens
作者: Yuqing Wang, Chuofan Ma, Zhijie Lin, Yao Teng, Lijun Yu, Shuai Wang, Jiaming Han, Jiashi Feng, Yi Jiang, Xihui Liu
分类: cs.CV
发布日期: 2026-03-19
备注: Accepted by CVPR 2026 main track; Code: https://github.com/YuqingWang1029/CubiD
🔗 代码/项目: GITHUB
💡 一句话要点
提出CubiD:首个面向高维离散表示的扩散模型,用于视觉生成任务。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 离散扩散模型 高维表示学习 视觉生成 图像生成 多模态学习
📋 核心要点
- 现有离散生成方法局限于低维潜在tokens,牺牲了语义丰富性,无法充分利用高维预训练表示。
- CubiD通过细粒度的掩码和预测策略,使模型能够学习高维离散表示中空间位置内部和之间的丰富相关性。
- CubiD在ImageNet-256上取得了领先的离散生成效果,并验证了离散化tokens保留了原始表示能力。
📝 摘要(中文)
本文提出了一种名为Cubic Discrete Diffusion (CubiD) 的离散生成模型,用于处理高维表示。CubiD 能够在高维离散表示上执行细粒度的掩码操作,即在任意位置掩盖任意维度,并从部分观测中预测被掩盖的部分。这种方法使得模型能够学习空间位置内部和之间的丰富相关性,并且生成步骤的数量固定为T,与特征维度无关,其中T远小于hwd。在ImageNet-256数据集上,CubiD实现了最先进的离散生成效果,并且在参数规模从900M扩展到3.7B时表现出强大的扩展性。实验验证了离散化后的tokens保留了原始表示的能力,表明相同的离散tokens可以有效地服务于理解和生成任务。这项工作旨在激发未来对统一多模态架构的研究。
🔬 方法详解
问题定义:现有离散视觉生成方法主要处理低维潜在tokens(通常为8-32维),这限制了模型对图像语义信息的理解和表达能力。虽然高维预训练表示(如768-1024维)能够提供更丰富的语义信息,但直接对高维离散表示进行生成面临着巨大的挑战,例如计算复杂度高、难以捕捉维度间的依赖关系等。
核心思路:CubiD的核心思路是在高维离散表示上进行细粒度的掩码和预测。不同于以往方法一次性掩码整个token,CubiD允许在任何位置掩码任何维度,并从部分观测到的维度信息中预测被掩码的维度。这种细粒度的掩码策略使得模型能够学习到高维空间中维度之间的复杂相关性,从而更好地进行生成。
技术框架:CubiD的整体框架基于扩散模型,但针对高维离散表示进行了专门设计。主要流程包括:1)前向扩散过程:逐步对高维离散表示进行掩码,直到所有维度都被掩码;2)反向扩散过程:从完全掩码的状态开始,逐步预测被掩码的维度,最终生成完整的高维离散表示。模型的训练目标是最小化预测误差,即尽可能准确地预测被掩码的维度。
关键创新:CubiD的关键创新在于其细粒度的掩码策略和针对高维离散表示的扩散模型设计。与现有方法相比,CubiD能够更好地捕捉高维空间中维度之间的相关性,从而生成更逼真、更具有语义信息的图像。此外,CubiD的生成步骤数量固定,与特征维度无关,这使得模型具有更好的可扩展性。
关键设计:CubiD的关键设计包括:1)掩码策略:采用随机掩码策略,即随机选择维度进行掩码;2)预测模型:使用Transformer网络作为预测模型,用于从部分观测到的维度信息中预测被掩码的维度;3)损失函数:使用交叉熵损失函数,用于衡量预测结果与真实标签之间的差异;4)生成步骤:生成步骤的数量T是一个超参数,需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
CubiD在ImageNet-256数据集上取得了state-of-the-art的离散生成效果。实验结果表明,CubiD在参数规模从900M扩展到3.7B时表现出强大的扩展性。更重要的是,实验验证了离散化后的tokens保留了原始表示的能力,表明相同的离散tokens可以有效地服务于理解和生成任务。
🎯 应用场景
CubiD具有广泛的应用前景,例如图像生成、图像编辑、图像修复等。此外,由于CubiD能够处理高维离散表示,因此可以将其应用于多模态学习领域,例如将图像和文本表示映射到同一个高维离散空间,从而实现跨模态的生成和理解。CubiD的成功为未来统一多模态架构的研究奠定了基础。
📄 摘要(原文)
Visual generation with discrete tokens has gained significant attention as it enables a unified token prediction paradigm shared with language models, promising seamless multimodal architectures. However, current discrete generation methods remain limited to low-dimensional latent tokens (typically 8-32 dims), sacrificing the semantic richness essential for understanding. While high-dimensional pretrained representations (768-1024 dims) could bridge this gap, their discrete generation poses fundamental challenges. In this paper, we present Cubic Discrete Diffusion (CubiD), the first discrete generation model for high-dimensional representations. CubiD performs fine-grained masking throughout the high-dimensional discrete representation -- any dimension at any position can be masked and predicted from partial observations. This enables the model to learn rich correlations both within and across spatial positions, with the number of generation steps fixed at $T$ regardless of feature dimensionality, where $T \ll hwd$. On ImageNet-256, CubiD achieves state-of-the-art discrete generation with strong scaling behavior from 900M to 3.7B parameters. Crucially, we validate that these discretized tokens preserve original representation capabilities, demonstrating that the same discrete tokens can effectively serve both understanding and generation tasks. We hope this work will inspire future research toward unified multimodal architectures. Code is available at: https://github.com/YuqingWang1029/CubiD.