PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

📄 arXiv: 2601.16210v1 📥 PDF

作者: Onkar Susladkar, Tushar Prakash, Adheesh Juvekar, Kiet A. Nguyen, Dong-Hwan Jang, Inderjit S Dhillon, Ismini Lourentzou

分类: cs.CV, cs.AI

发布日期: 2026-01-22


💡 一句话要点

PyraTok:用于视频理解和生成的语言对齐金字塔式分词器

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 视频生成 金字塔式分词器 语言对齐 多尺度表示

📋 核心要点

  1. 现有视频分词器在单一尺度学习视觉码本,缺乏有效的跨模态对齐和零样本迁移能力。
  2. PyraTok提出了一种语言对齐的金字塔式分词器,通过多尺度时空分辨率学习语义结构化离散潜在变量。
  3. 实验结果表明,PyraTok在视频重建、文本到视频生成以及零样本视频理解任务上均取得了SOTA性能。

📝 摘要(中文)

离散视频VAE是现代文本到视频生成和视频理解系统的基础,但现有的分词器通常以单一尺度学习视觉码本,词汇量有限且语言监督不足,导致较差的跨模态对齐和零样本迁移。我们提出了PyraTok,一种语言对齐的金字塔式分词器,它学习跨多个时空分辨率的语义结构化离散潜在变量。PyraTok建立在预训练的视频VAE和一个新颖的语言对齐金字塔量化(LaPQ)模块之上,该模块使用共享的大型二元码本在多个深度离散化编码器特征,从而产生紧凑但富有表现力的视频token序列。为了将视觉token与语言紧密结合,PyraTok联合优化多尺度文本引导量化和token层次结构上的全局自回归目标。在十个基准测试中,PyraTok提供了最先进的(SOTA)视频重建,持续提高了文本到视频的质量,并在视频分割、时间动作定位和视频理解方面设置了新的SOTA零样本性能,并能稳健地扩展到高达4K/8K分辨率。

🔬 方法详解

问题定义:现有基于离散视频VAE的视频理解和生成系统,其分词器通常只在单一尺度上学习视觉码本,导致词汇量受限,且缺乏有效的语言监督,从而限制了跨模态对齐和零样本迁移能力。这些问题阻碍了模型在复杂视频场景下的性能。

核心思路:PyraTok的核心思路是构建一个语言对齐的金字塔式分词器,通过在多个时空分辨率上学习语义结构化的离散潜在变量,从而更有效地捕捉视频内容。通过多尺度表示和语言对齐,增强模型对视频内容的理解和生成能力。

技术框架:PyraTok建立在预训练的视频VAE之上,并引入了语言对齐金字塔量化(LaPQ)模块。LaPQ模块在多个深度上离散化编码器特征,使用共享的大型二元码本生成紧凑且富有表现力的视频token序列。整个框架通过联合优化多尺度文本引导量化和token层次结构上的全局自回归目标,实现视觉token与语言的紧密结合。

关键创新:PyraTok的关键创新在于LaPQ模块和多尺度语言对齐策略。LaPQ模块允许在不同分辨率上提取视频特征,而多尺度语言对齐策略则确保了视觉token与语言之间的语义一致性。与现有方法相比,PyraTok能够更好地捕捉视频内容的多尺度特征,并实现更有效的跨模态对齐。

关键设计:LaPQ模块使用共享的二元码本,以减少参数量并提高效率。多尺度文本引导量化通过结合文本信息来指导视觉token的生成,从而增强了跨模态对齐。全局自回归目标则用于学习token层次结构,从而提高视频生成的连贯性。

📊 实验亮点

PyraTok在多个基准测试中取得了显著的性能提升。在视频重建任务中,PyraTok达到了SOTA水平。在文本到视频生成任务中,PyraTok持续提高了生成质量。在零样本视频分割、时间动作定位和视频理解任务中,PyraTok均取得了新的SOTA性能,并且能够稳健地扩展到4K/8K分辨率。

🎯 应用场景

PyraTok在视频理解和生成领域具有广泛的应用前景,例如文本到视频生成、视频编辑、视频检索、视频摘要以及智能监控等。该研究成果有助于提升视频生成质量,增强视频理解能力,并为相关应用提供更强大的技术支持。

📄 摘要(原文)

Discrete video VAEs underpin modern text-to-video generation and video understanding systems, yet existing tokenizers typically learn visual codebooks at a single scale with limited vocabularies and shallow language supervision, leading to poor cross-modal alignment and zero-shot transfer. We introduce PyraTok, a language-aligned pyramidal tokenizer that learns semantically structured discrete latents across multiple spatiotemporal resolutions. PyraTok builds on a pretrained video VAE and a novel Language aligned Pyramidal Quantization (LaPQ) module that discretizes encoder features at several depths using a shared large binary codebook, yielding compact yet expressive video token sequences. To tightly couple visual tokens with language, PyraTok jointly optimizes multi-scale text-guided quantization and a global autoregressive objective over the token hierarchy. Across ten benchmarks, PyraTok delivers state-of-the-art (SOTA) video reconstruction, consistently improves text-to-video quality, and sets new SOTA zero-shot performance on video segmentation, temporal action localization, and video understanding, scaling robustly to up to 4K/8K resolutions.