VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization
作者: Andrei Atanov, Jesse Allardice, Roman Bachmann, Oğuzhan Fatih Kar, R Devon Hjelm, David Griffiths, Peter Fu, Afshin Dehghan, Amir Zamir
分类: cs.CV, cs.LG
发布日期: 2026-04-14
备注: project page at https://videoflextok.epfl.ch/
💡 一句话要点
提出VideoFlexTok,一种灵活长度的由粗到精视频Token化方法,提升视频生成效率。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 视频Token化 视频生成 长视频生成 由粗到精 可变长度序列
📋 核心要点
- 现有视频Token化方法将视频表示为3D网格,下游模型需逐像素预测细节,学习复杂度高。
- VideoFlexTok采用由粗到精的Token序列表示视频,初始Token捕获抽象信息,后续Token添加细节。
- 实验表明,VideoFlexTok能以更小的模型实现相当的生成质量,并支持长视频生成,计算成本更低。
📝 摘要(中文)
本文提出VideoFlexTok,一种可变长度的由粗到精的视频Token化方法,将高维原始像素映射为压缩表示,供下游模型使用。与将视频表示为时空3D网格的标准方法不同,VideoFlexTok使用变长Token序列表示视频,其中初始Token捕获语义和运动等抽象信息,后续Token添加精细细节。生成式流解码器能够从任意数量的Token中重建逼真的视频。这种表示结构允许根据下游需求调整Token数量,并以相同的预算编码更长的视频。在类别和文本到视频生成任务上的评估表明,VideoFlexTok能够实现更高效的训练,例如,以小5倍的模型(11亿参数 vs 52亿参数)实现相当的生成质量(gFVD和ViCLIP Score)。最后,通过在10秒81帧的视频上,仅使用672个Token训练文本到视频模型,证明了VideoFlexTok能够在不产生过高计算成本的情况下实现长视频生成,Token数量比同类3D网格Token化器少8倍。
🔬 方法详解
问题定义:现有视频Token化方法通常将视频表示为3D时空网格,这种方法要求下游模型学习预测所有低级细节,无论视频本身的复杂性如何,导致学习复杂度很高,尤其是在生成任务中,需要消耗大量的计算资源和模型参数。此外,固定长度的Token序列难以适应不同长度的视频,限制了模型处理长视频的能力。
核心思路:VideoFlexTok的核心思路是采用一种可变长度的由粗到精的Token序列来表示视频。这种方法允许模型首先关注视频的整体语义和运动信息(粗粒度),然后再逐步添加细节(细粒度)。通过调整Token的数量,可以灵活地控制视频表示的精度和计算成本。这种设计使得模型能够更有效地学习视频的本质特征,并适应不同长度的视频。
技术框架:VideoFlexTok的整体框架包含一个编码器和一个生成式流解码器。编码器将原始视频帧转换为可变长度的Token序列,其中每个Token对应不同级别的视频信息。生成式流解码器则根据Token序列重建视频。解码器可以从任意数量的Token中重建视频,从而实现由粗到精的生成过程。整个框架允许根据下游任务的需求调整Token的数量,以达到最佳的性能和效率。
关键创新:VideoFlexTok最重要的创新点在于其可变长度的由粗到精的Token化方法。与传统的固定长度3D网格Token化方法不同,VideoFlexTok能够根据视频的内容和下游任务的需求,动态地调整Token的数量和粒度。这种方法使得模型能够更有效地学习视频的本质特征,并适应不同长度的视频。此外,生成式流解码器的设计也使得模型能够从任意数量的Token中重建视频,从而实现由粗到精的生成过程。
关键设计:VideoFlexTok的关键设计包括:1) 使用变分自编码器(VAE)作为编码器,学习视频的潜在表示;2) 设计生成式流解码器,能够从任意数量的Token中重建视频;3) 采用由粗到精的Token化策略,使得模型能够首先关注视频的整体语义和运动信息,然后再逐步添加细节;4) 使用合适的损失函数,例如重建损失和KL散度,来训练模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VideoFlexTok在类别和文本到视频生成任务上表现出色,能够以小5倍的模型(11亿参数 vs 52亿参数)实现相当的生成质量(gFVD和ViCLIP Score)。此外,VideoFlexTok还能够以更少的Token数量(8倍)生成长视频,从而降低计算成本。这些结果表明,VideoFlexTok是一种高效且有效的视频Token化方法。
🎯 应用场景
VideoFlexTok在视频生成、视频编辑、视频压缩等领域具有广泛的应用前景。它可以用于生成高质量的短视频和长视频,也可以用于对现有视频进行编辑和修改。此外,VideoFlexTok还可以用于视频压缩,通过减少Token的数量来降低视频的存储空间和传输带宽。该研究的实际价值在于提高视频处理的效率和质量,并降低计算成本。未来,VideoFlexTok有望成为视频处理领域的一种重要技术。
📄 摘要(原文)
Visual tokenizers map high-dimensional raw pixels into a compressed representation for downstream modeling. Beyond compression, tokenizers dictate what information is preserved and how it is organized. A de facto standard approach to video tokenization is to represent a video as a spatiotemporal 3D grid of tokens, each capturing the corresponding local information in the original signal. This requires the downstream model that consumes the tokens, e.g., a text-to-video model, to learn to predict all low-level details "pixel-by-pixel" irrespective of the video's inherent complexity, leading to high learning complexity. We present VideoFlexTok, which represents videos with a variable-length sequence of tokens structured in a coarse-to-fine manner -- where the first tokens (emergently) capture abstract information, such as semantics and motion, and later tokens add fine-grained details. The generative flow decoder enables realistic video reconstructions from any token count. This representation structure allows adapting the token count according to downstream needs and encoding videos longer than the baselines with the same budget. We evaluate VideoFlexTok on class- and text-to-video generative tasks and show that it leads to more efficient training compared to 3D grid tokens, e.g., achieving comparable generation quality (gFVD and ViCLIP Score) with a 5x smaller model (1.1B vs 5.2B). Finally, we demonstrate how VideoFlexTok can enable long video generation without prohibitive computational cost by training a text-to-video model on 10-second 81-frame videos with only 672 tokens, 8x fewer than a comparable 3D grid tokenizer.