VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models
作者: Haichao Zhang, Yun Fu
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2025-03-21 (更新: 2025-09-29)
备注: Proceedings of the 38th Conference on Neural Information Processing Systems (NeurIPS 2025)
💡 一句话要点
提出VQToken,用于视频大语言模型中极端Token缩减的神经离散Token表示学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频大语言模型 Token缩减 向量量化 离散表示学习 视频理解 时空信息 信息密度
📋 核心要点
- 现有Token缩减技术难以在计算效率和Token数量之间取得平衡,尤其是在视频大语言模型中。
- VQToken通过自适应向量量化学习紧凑码本,并使用Token哈希函数保留时空位置信息,实现极端Token缩减。
- VQToken在多个视频问答基准测试中表现出色,同时显著降低了Token数量和计算复杂度。
📝 摘要(中文)
本文提出了一种新的任务:极端短Token缩减,旨在用最少的离散Token来表示整个视频,以解决现有Token缩减技术在视频大语言模型中计算效率和Token数量之间难以平衡的问题。为此,我们提出了VQToken,一个神经离散Token表示框架,它(1)应用自适应向量量化到连续的ViT嵌入,以学习一个紧凑的码本;(2)通过Token哈希函数,将每个网格级别的Token分配到其最近的码本条目,从而保留时空位置信息。在极端短Token缩减任务上,VQToken将序列压缩到原始长度的0.07%,同时在NextQA-MC基准测试中仅损失0.66%的准确率。它还在ActNet-QA、Long Video Bench和VideoMME上取得了可比的性能。我们进一步引入了Token信息密度(TokDense)指标,并形式化了固定长度和自适应长度的子任务,在这两种设置下都取得了最先进的结果。我们的方法显著降低了理论复杂度,提高了信息密度,大幅减少了Token数量,并在资源受限的环境中实现了高效的视频LLM。
🔬 方法详解
问题定义:现有基于Token的视频表示方法,在应用于视频大语言模型时,面临着Token数量过多的问题。传统的Token缩减方法,如剪枝和合并,虽然可以减少Token数量,但往往会破坏重要的位置嵌入,并且依赖于从相邻像素采样的连续视觉Token,无法实现极端压缩,难以满足视频LLM对计算效率和Token数量的严格要求。
核心思路:论文的核心思路是将连续的视觉Token转换为离散的Token表示,并通过向量量化学习一个紧凑的码本。每个视觉Token被映射到码本中最接近的条目,从而实现Token的离散化和压缩。同时,通过Token哈希函数保留Token的时空位置信息,避免信息丢失。
技术框架:VQToken框架主要包含以下几个阶段:(1)使用ViT等视觉编码器提取视频帧的视觉特征。(2)对提取的连续视觉特征进行自适应向量量化,学习一个紧凑的离散码本。(3)使用Token哈希函数将每个网格级别的Token分配到其最近的码本条目,从而生成离散的Token序列。(4)将离散的Token序列输入到视频大语言模型中进行下游任务。
关键创新:VQToken的关键创新在于引入了神经离散Token表示学习,将连续的视觉Token转换为离散的Token,从而实现极端Token缩减。与传统的Token缩减方法相比,VQToken能够更有效地压缩Token数量,同时保留重要的时空信息。此外,论文还提出了Token信息密度(TokDense)指标,用于评估Token的信息含量。
关键设计:VQToken使用自适应向量量化(Adaptive Vector Quantization)来学习码本。自适应向量量化可以根据数据的分布动态调整码本的大小,从而更好地适应不同的视频内容。Token哈希函数的设计旨在保留Token的时空位置信息,避免信息丢失。论文还提出了固定长度和自适应长度的子任务,并针对不同的子任务设计了相应的损失函数。
🖼️ 关键图片
📊 实验亮点
VQToken在极端短Token缩减任务上表现出色,将序列压缩到原始长度的0.07%,同时在NextQA-MC基准测试中仅损失0.66%的准确率。在ActNet-QA、Long Video Bench和VideoMME等其他视频问答基准测试中,VQToken也取得了可比的性能。此外,VQToken在固定长度和自适应长度的子任务中均取得了最先进的结果。
🎯 应用场景
VQToken在资源受限的环境中具有广泛的应用前景,例如移动设备上的视频理解、低带宽网络下的视频传输、以及大规模视频数据的存储和检索。通过大幅减少Token数量,VQToken可以降低计算成本,提高处理效率,并支持更复杂的视频分析任务。
📄 摘要(原文)
Token-based video representation has emerged as a promising approach for enabling large language models (LLMs) to interpret video content. However, existing token reduction techniques, such as pruning and merging, often disrupt essential positional embeddings and rely on continuous visual tokens sampled from nearby pixels with similar spatial-temporal locations. By removing only a small fraction of tokens, these methods still produce relatively lengthy continuous sequences, which falls short of the extreme compression required to balance computational efficiency and token count in video LLMs. In this paper, we introduce the novel task of Extreme Short Token Reduction, which aims to represent entire videos using a minimal set of discrete tokens. We propose VQToken, a neural discrete token representation framework that (i) applies adaptive vector quantization to continuous ViT embeddings to learn a compact codebook and (ii) preserves spatial-temporal positions via a token hash function by assigning each grid-level token to its nearest codebook entry. On the Extreme Short Token Reduction task, our VQToken compresses sequences to just 0.07 percent of their original length while incurring only a 0.66 percent drop in accuracy on the NextQA-MC benchmark. It also achieves comparable performance on ActNet-QA, Long Video Bench, and VideoMME. We further introduce the Token Information Density (TokDense) metric and formalize fixed-length and adaptive-length subtasks, achieving state-of-the-art results in both settings. Our approach dramatically lowers theoretical complexity, increases information density, drastically reduces token counts, and enables efficient video LLMs in resource-constrained environments.