LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior
作者: Hanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava
分类: cs.CV, cs.AI
发布日期: 2024-10-28 (更新: 2025-06-16)
备注: ICLR 2025. Project page: https://hywang66.github.io/larp/
💡 一句话要点
LARP:提出一种基于学习的自回归生成先验的视频Token化方法,提升视频生成质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频Token化 自回归生成模型 视频生成 Transformer 多模态学习
📋 核心要点
- 现有视频Token化方法依赖局部视觉块编码,缺乏全局语义信息,限制了自回归生成模型的性能。
- LARP通过学习到的整体查询机制,从视觉内容中提取全局和语义信息,实现更灵活和高效的Token化。
- LARP在UCF101数据集上取得了SOTA的FVD指标,验证了其在类条件视频生成任务上的有效性。
📝 摘要(中文)
本文提出了一种名为LARP的新型视频Token化器,旨在克服当前视频Token化方法在自回归(AR)生成模型中的局限性。与直接将局部视觉块编码为离散Token的传统块状Token化器不同,LARP引入了一种整体Token化方案,该方案使用一组学习到的整体查询来收集视觉内容的信息。这种设计使LARP能够捕获更全局和语义的表示,而不是局限于局部块级信息。此外,它通过支持任意数量的离散Token来提供灵活性,从而能够根据任务的特定需求进行自适应和高效的Token化。为了使离散Token空间与下游AR生成任务对齐,LARP集成了一个轻量级的AR Transformer作为训练时的先验模型,该模型预测其离散潜在空间中的下一个Token。通过在训练期间结合先验模型,LARP学习到一个不仅针对视频重建进行优化,而且以更有利于自回归生成的方式构建的潜在空间。此外,此过程为离散Token定义了一个顺序,在训练期间逐步将它们推向最佳配置,从而确保在推理时实现更平滑和更准确的AR生成。综合实验表明了LARP的强大性能,在UCF101类条件视频生成基准测试中实现了最先进的FVD。LARP增强了AR模型与视频的兼容性,并开启了构建统一的高保真多模态大型语言模型(MLLM)的潜力。
🔬 方法详解
问题定义:现有的视频Token化方法,例如VQ-VAE等,通常采用patch-wise的方式将视频帧分割成小的图像块,然后将这些图像块编码成离散的token。这种方法的缺点在于,它只关注局部信息,忽略了视频帧之间的全局上下文关系,导致生成的视频质量不高,缺乏连贯性。此外,现有的方法通常需要预先设定token的数量,缺乏灵活性。
核心思路:LARP的核心思路是利用一组学习到的“整体查询”(holistic queries)来提取视频帧的全局信息,并将这些信息编码成离散的token。与patch-wise的方法不同,LARP关注的是整个视频帧的语义信息,而不是局部的图像块。此外,LARP允许使用任意数量的token,从而可以根据视频内容的复杂程度自适应地调整token的数量。
技术框架:LARP的整体框架包括三个主要模块:1) 视频编码器:用于将视频帧编码成视觉特征;2) Token化器:使用学习到的整体查询从视觉特征中提取全局信息,并将这些信息编码成离散的token;3) 自回归先验模型:一个轻量级的Transformer模型,用于预测下一个token。在训练过程中,LARP通过最小化视频重建误差和自回归预测误差来优化token化器和先验模型。
关键创新:LARP的关键创新在于其整体Token化方案和自回归先验模型的结合。整体Token化方案能够捕获视频帧的全局语义信息,而自回归先验模型则能够学习token之间的依赖关系,从而提高视频生成的质量。与现有的方法相比,LARP能够生成更连贯、更真实的视频。
关键设计:LARP使用Transformer作为视频编码器和自回归先验模型。Token化器使用一组学习到的查询向量,通过注意力机制从视频特征中提取信息。损失函数包括视频重建损失和自回归预测损失。在训练过程中,LARP使用teacher forcing来训练自回归先验模型。具体而言,LARP使用交叉熵损失来衡量预测token和真实token之间的差异。
🖼️ 关键图片
📊 实验亮点
LARP在UCF101类条件视频生成基准测试中取得了state-of-the-art的FVD指标,显著优于现有的视频Token化方法。实验结果表明,LARP能够生成更连贯、更真实的视频,验证了其在视频生成任务上的有效性。具体性能数据需要在论文中查找。
🎯 应用场景
LARP的潜在应用领域包括视频生成、视频编辑、视频压缩和多模态大型语言模型。该研究可以用于生成高质量的视频内容,例如电影、电视剧和广告。此外,LARP还可以用于视频编辑,例如视频修复、视频风格迁移和视频摘要。LARP还可以用于视频压缩,通过将视频编码成离散的token,可以有效地降低视频的存储空间和传输带宽。LARP增强了AR模型与视频的兼容性,并开启了构建统一的高保真多模态大型语言模型(MLLM)的潜力。
📄 摘要(原文)
We present LARP, a novel video tokenizer designed to overcome limitations in current video tokenization methods for autoregressive (AR) generative models. Unlike traditional patchwise tokenizers that directly encode local visual patches into discrete tokens, LARP introduces a holistic tokenization scheme that gathers information from the visual content using a set of learned holistic queries. This design allows LARP to capture more global and semantic representations, rather than being limited to local patch-level information. Furthermore, it offers flexibility by supporting an arbitrary number of discrete tokens, enabling adaptive and efficient tokenization based on the specific requirements of the task. To align the discrete token space with downstream AR generation tasks, LARP integrates a lightweight AR transformer as a training-time prior model that predicts the next token on its discrete latent space. By incorporating the prior model during training, LARP learns a latent space that is not only optimized for video reconstruction but is also structured in a way that is more conducive to autoregressive generation. Moreover, this process defines a sequential order for the discrete tokens, progressively pushing them toward an optimal configuration during training, ensuring smoother and more accurate AR generation at inference time. Comprehensive experiments demonstrate LARP's strong performance, achieving state-of-the-art FVD on the UCF101 class-conditional video generation benchmark. LARP enhances the compatibility of AR models with videos and opens up the potential to build unified high-fidelity multimodal large language models (MLLMs).