MambaVideo for Discrete Video Tokenization with Channel-Split Quantization

📄 arXiv: 2507.04559v1 📥 PDF

作者: Dawit Mureja Argaw, Xian Liu, Joon Son Chung, Ming-Yu Liu, Fitsum Reda

分类: cs.CV

发布日期: 2025-07-06

备注: Project website: https://research.nvidia.com/labs/dir/mamba-tokenizer/


💡 一句话要点

提出基于Mamba的视频离散Token化方法,结合通道分离量化,显著提升视频生成效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频Token化 Mamba架构 通道分离量化 自回归视频生成 离散表示

📋 核心要点

  1. 视频数据维度高,高效自回归生成建模需要离散Token化,现有序列Token化器存在局限性。
  2. 提出基于Mamba的编码器-解码器架构,并引入通道分离量化方案,增强量化表征能力。
  3. 实验结果表明,该模型在多个数据集上优于现有方法,并验证了其作为自回归视频生成Tokenizer的鲁棒性。

📝 摘要(中文)

本文提出了一种先进的离散视频Token化方法,用于高效的自回归生成建模,以应对视频数据的高维度挑战。该方法包含两个关键贡献:首先,提出了一种基于Mamba的新型编码器-解码器架构,克服了以往基于序列的Token化器的局限性。其次,引入了一种新的量化方案,即通道分离量化,它在保持Token数量的同时,显著增强了量化潜在变量的表征能力。我们的模型取得了新的state-of-the-art,优于基于因果3D卷积和基于Transformer的方法,并在多个数据集上进行了验证。实验结果进一步证明了其作为自回归视频生成Tokenizer的鲁棒性。

🔬 方法详解

问题定义:视频自回归生成建模面临高维数据处理的挑战,需要将视频转换为离散的Token序列。现有的基于卷积或Transformer的Token化方法在捕捉长程依赖或压缩效率方面存在不足,限制了生成模型的性能。

核心思路:利用Mamba架构的序列建模能力,克服传统序列模型的局限性,更有效地捕捉视频中的时空依赖关系。同时,通过通道分离量化,在不增加Token数量的前提下,提升量化后潜在变量的表征能力,从而提高视频重建质量和生成效果。

技术框架:该方法采用基于Mamba的编码器-解码器架构。编码器将原始视频帧序列压缩为离散的潜在表示,解码器则将这些潜在表示重构为视频帧。通道分离量化模块位于编码器和解码器之间,对潜在表示进行量化处理。整体流程包括视频输入、Mamba编码、通道分离量化、Mamba解码和视频输出。

关键创新:关键创新在于Mamba架构在视频Token化中的应用,以及通道分离量化方案的设计。Mamba架构能够更有效地建模长序列依赖,而通道分离量化则可以在不增加Token数量的情况下,提升量化潜在变量的表征能力,从而提高视频重建质量。与现有方法相比,该方法在序列建模能力和量化效率方面具有优势。

关键设计:通道分离量化的具体实现是将潜在表示的通道维度划分为多个组,然后对每个组独立进行量化。这种方式可以更好地保留原始特征的信息,避免信息损失。损失函数可能包括重建损失和量化损失,用于优化编码器、解码器和量化器。具体的网络结构参数和训练策略未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在多个视频数据集上取得了state-of-the-art的结果,优于基于因果3D卷积和基于Transformer的方法。具体的性能提升幅度未知,但摘要中强调了其在多个数据集上的优越性,以及作为自回归视频生成Tokenizer的鲁棒性。

🎯 应用场景

该研究成果可应用于视频压缩、视频生成、视频编辑等领域。例如,可以用于开发更高质量的视频编解码器,生成更逼真的视频内容,以及实现更灵活的视频编辑功能。此外,该方法还可以应用于其他序列数据处理任务,如语音合成、自然语言处理等。

📄 摘要(原文)

Discrete video tokenization is essential for efficient autoregressive generative modeling due to the high dimensionality of video data. This work introduces a state-of-the-art discrete video tokenizer with two key contributions. First, we propose a novel Mamba-based encoder-decoder architecture that overcomes the limitations of previous sequencebased tokenizers. Second, we introduce a new quantization scheme, channel-split quantization, which significantly enhances the representational power of quantized latents while preserving the token count. Our model sets a new state-of-the-art, outperforming both causal 3D convolutionbased and Transformer-based approaches across multiple datasets. Experimental results further demonstrate its robustness as a tokenizer for autoregressive video generation.