PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

作者: Onkar Susladkar, Tushar Prakash, Adheesh Juvekar, Kiet A. Nguyen, Dong-Hwan Jang, Inderjit S Dhillon, Ismini Lourentzou

分类: cs.CV, cs.AI

发布日期: 2026-01-22

💡 一句话要点

PyraTok：用于视频理解和生成的语言对齐金字塔式分词器

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频理解 视频生成 金字塔式分词器 语言对齐 多尺度表示

📋 核心要点

现有视频分词器在单一尺度学习视觉码本，缺乏有效的跨模态对齐和零样本迁移能力。
PyraTok提出了一种语言对齐的金字塔式分词器，通过多尺度时空分辨率学习语义结构化离散潜在变量。
实验结果表明，PyraTok在视频重建、文本到视频生成以及零样本视频理解任务上均取得了SOTA性能。

📝 摘要（中文）

离散视频VAE是现代文本到视频生成和视频理解系统的基础，但现有的分词器通常以单一尺度学习视觉码本，词汇量有限且语言监督不足，导致较差的跨模态对齐和零样本迁移。我们提出了PyraTok，一种语言对齐的金字塔式分词器，它学习跨多个时空分辨率的语义结构化离散潜在变量。PyraTok建立在预训练的视频VAE和一个新颖的语言对齐金字塔量化（LaPQ）模块之上，该模块使用共享的大型二元码本在多个深度离散化编码器特征，从而产生紧凑但富有表现力的视频token序列。为了将视觉token与语言紧密结合，PyraTok联合优化多尺度文本引导量化和token层次结构上的全局自回归目标。在十个基准测试中，PyraTok提供了最先进的（SOTA）视频重建，持续提高了文本到视频的质量，并在视频分割、时间动作定位和视频理解方面设置了新的SOTA零样本性能，并能稳健地扩展到高达4K/8K分辨率。

🔬 方法详解

问题定义：现有基于离散视频VAE的视频理解和生成系统，其分词器通常只在单一尺度上学习视觉码本，导致词汇量受限，且缺乏有效的语言监督，从而限制了跨模态对齐和零样本迁移能力。这些问题阻碍了模型在复杂视频场景下的性能。

核心思路：PyraTok的核心思路是构建一个语言对齐的金字塔式分词器，通过在多个时空分辨率上学习语义结构化的离散潜在变量，从而更有效地捕捉视频内容。通过多尺度表示和语言对齐，增强模型对视频内容的理解和生成能力。

技术框架：PyraTok建立在预训练的视频VAE之上，并引入了语言对齐金字塔量化（LaPQ）模块。LaPQ模块在多个深度上离散化编码器特征，使用共享的大型二元码本生成紧凑且富有表现力的视频token序列。整个框架通过联合优化多尺度文本引导量化和token层次结构上的全局自回归目标，实现视觉token与语言的紧密结合。

关键创新：PyraTok的关键创新在于LaPQ模块和多尺度语言对齐策略。LaPQ模块允许在不同分辨率上提取视频特征，而多尺度语言对齐策略则确保了视觉token与语言之间的语义一致性。与现有方法相比，PyraTok能够更好地捕捉视频内容的多尺度特征，并实现更有效的跨模态对齐。

关键设计：LaPQ模块使用共享的二元码本，以减少参数量并提高效率。多尺度文本引导量化通过结合文本信息来指导视觉token的生成，从而增强了跨模态对齐。全局自回归目标则用于学习token层次结构，从而提高视频生成的连贯性。

📊 实验亮点

PyraTok在多个基准测试中取得了显著的性能提升。在视频重建任务中，PyraTok达到了SOTA水平。在文本到视频生成任务中，PyraTok持续提高了生成质量。在零样本视频分割、时间动作定位和视频理解任务中，PyraTok均取得了新的SOTA性能，并且能够稳健地扩展到4K/8K分辨率。

🎯 应用场景

PyraTok在视频理解和生成领域具有广泛的应用前景，例如文本到视频生成、视频编辑、视频检索、视频摘要以及智能监控等。该研究成果有助于提升视频生成质量，增强视频理解能力，并为相关应用提供更强大的技术支持。

📄 摘要（原文）

Discrete video VAEs underpin modern text-to-video generation and video understanding systems, yet existing tokenizers typically learn visual codebooks at a single scale with limited vocabularies and shallow language supervision, leading to poor cross-modal alignment and zero-shot transfer. We introduce PyraTok, a language-aligned pyramidal tokenizer that learns semantically structured discrete latents across multiple spatiotemporal resolutions. PyraTok builds on a pretrained video VAE and a novel Language aligned Pyramidal Quantization (LaPQ) module that discretizes encoder features at several depths using a shared large binary codebook, yielding compact yet expressive video token sequences. To tightly couple visual tokens with language, PyraTok jointly optimizes multi-scale text-guided quantization and a global autoregressive objective over the token hierarchy. Across ten benchmarks, PyraTok delivers state-of-the-art (SOTA) video reconstruction, consistently improves text-to-video quality, and sets new SOTA zero-shot performance on video segmentation, temporal action localization, and video understanding, scaling robustly to up to 4K/8K resolutions.

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理