Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
作者: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
分类: cs.CV
发布日期: 2024-12-05
备注: Project released at: https://github.com/TencentARC/Divot
💡 一句话要点
Divot:利用扩散模型构建视频Tokenizer,实现视频理解与生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频Tokenizer 扩散模型 视频理解 视频生成 自监督学习 大型语言模型 多模态学习
📋 核心要点
- 现有方法难以兼顾视频的空间特征和时间动态,缺乏有效的视频Tokenizer将视频信息编码为LLM可用的表示。
- Divot利用扩散模型进行自监督视频表示学习,通过扩散模型去噪能力来保证Tokenizer捕获视频的时空信息。
- 实验表明,Divot与预训练LLM集成后,在视频理解和生成任务上表现出色,Divot-Vicuna在视频故事讲述方面表现优异。
📝 摘要(中文)
近年来,将图像理解和生成统一到大型语言模型(LLM)中的兴趣显著增加。受此启发,本文探索将这种统一扩展到视频领域。核心挑战在于开发一种通用的视频tokenizer,它既能捕获视频的空间特征,又能捕获时间动态,从而获得LLM可用的表示,并且这些表示可以进一步解码为逼真的视频片段,以实现视频生成。本文提出了Divot,一种基于扩散的视频Tokenizer,它利用扩散过程进行自监督视频表示学习。本文假设,如果视频扩散模型可以通过视频tokenizer的特征作为条件有效地对视频片段进行去噪,那么该tokenizer就成功地捕获了鲁棒的空间和时间信息。此外,视频扩散模型本身就充当了一个去-tokenizer,从其表示中解码视频。在Divot tokenizer的基础上,本文通过视频到文本的自回归和文本到视频的生成,提出了Divot-Vicuna,通过高斯混合模型对连续值的Divot特征的分布进行建模。实验结果表明,本文基于扩散的视频tokenizer在与预训练的LLM集成时,在各种视频理解和生成基准测试中取得了具有竞争力的性能。经过指令调整的Divot-Vicuna在视频故事讲述方面也很出色,可以生成交错的叙述和相应的视频。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在图像理解和生成方面取得了显著进展,但将这种能力扩展到视频领域面临挑战。核心问题在于如何设计一个有效的视频Tokenizer,能够将视频的时空信息编码成LLM可以理解和处理的表示,同时支持从这些表示中解码生成高质量的视频。现有方法在捕获视频的时序动态方面存在不足,或者生成的视频质量不高。
核心思路:Divot的核心思路是利用扩散模型强大的生成能力来指导视频Tokenizer的学习。如果一个视频扩散模型能够以Tokenizer提取的特征为条件,成功地对噪声视频进行去噪,那么就说明该Tokenizer有效地捕获了视频的时空信息。同时,扩散模型的逆过程自然地可以作为视频的“去-Tokenizer”,实现从表示到视频的解码。
技术框架:Divot的整体框架包含两个主要部分:视频Tokenizer和视频扩散模型。视频Tokenizer负责将视频编码成紧凑的特征表示。视频扩散模型以Tokenizer的输出为条件,学习从噪声中恢复原始视频。训练完成后,Tokenizer可以将视频编码为LLM可用的token,扩散模型则可以将LLM生成的token解码为视频。Divot-Vicuna进一步利用高斯混合模型对Tokenizer输出的连续值特征进行建模,实现视频到文本的自回归和文本到视频的生成。
关键创新:Divot的关键创新在于将扩散模型引入到视频Tokenizer的学习过程中。通过利用扩散模型的去噪能力,Divot能够学习到更鲁棒、更具有表达能力的视频表示。这种方法避免了传统方法中对时序建模的困难,并且能够生成更高质量的视频。
关键设计:Divot使用U-Net结构的扩散模型,并以Tokenizer的输出作为条件输入。Tokenizer的具体结构未知,但其目标是提取视频的关键时空特征。Divot-Vicuna使用高斯混合模型对Tokenizer输出的连续值特征进行建模,并采用视频到文本的自回归和文本到视频的生成方式。损失函数的设计需要保证扩散模型的去噪效果,以及Tokenizer提取的特征能够有效地被扩散模型利用。
🖼️ 关键图片
📊 实验亮点
Divot在视频理解和生成任务上取得了有竞争力的性能,证明了基于扩散模型的视频Tokenizer的有效性。Divot-Vicuna在视频故事讲述方面表现出色,能够生成交错的叙述和相应的视频,展示了其在多模态内容生成方面的潜力。具体的性能数据和对比基线未知。
🎯 应用场景
Divot具有广泛的应用前景,包括视频编辑、视频摘要、视频生成、视频理解和问答等。它可以用于创建更智能的视频分析系统,例如自动生成视频字幕、根据文本描述生成视频内容、以及对视频内容进行更深入的理解和推理。此外,Divot还可以应用于虚拟现实和增强现实等领域,生成更逼真的虚拟视频内容。
📄 摘要(原文)
In recent years, there has been a significant surge of interest in unifying image comprehension and generation within Large Language Models (LLMs). This growing interest has prompted us to explore extending this unification to videos. The core challenge lies in developing a versatile video tokenizer that captures both the spatial characteristics and temporal dynamics of videos to obtain representations for LLMs, and the representations can be further decoded into realistic video clips to enable video generation. In this work, we introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the diffusion process for self-supervised video representation learning. We posit that if a video diffusion model can effectively de-noise video clips by taking the features of a video tokenizer as the condition, then the tokenizer has successfully captured robust spatial and temporal information. Additionally, the video diffusion model inherently functions as a de-tokenizer, decoding videos from their representations. Building upon the Divot tokenizer, we present Divot-Vicuna through video-to-text autoregression and text-to-video generation by modeling the distributions of continuous-valued Divot features with a Gaussian Mixture Model. Experimental results demonstrate that our diffusion-based video tokenizer, when integrated with a pre-trained LLM, achieves competitive performance across various video comprehension and generation benchmarks. The instruction tuned Divot-Vicuna also excels in video storytelling, generating interleaved narratives and corresponding videos.