AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding

📄 arXiv: 2603.28696v1 📥 PDF

作者: Haozhe Qi, Kevin Qu, Mahdi Rad, Rui Wang, Alexander Mathis, Marc Pollefeys

分类: cs.CV, cs.AI

发布日期: 2026-03-30

备注: Project page: https://haozheqi.github.io/adapt-token

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AdaptToken:基于熵自适应Token选择的长视频理解方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态大语言模型 Token选择 自适应算法 信息熵 跨模态注意力 视频问答

📋 核心要点

  1. 多模态大语言模型处理长视频时,面临内存消耗大和上下文长度受限的挑战。
  2. AdaptToken利用模型自身的不确定性(熵)作为信号,自适应地选择和分配token预算。
  3. 实验表明,AdaptToken在多个长视频数据集上显著提升了准确率,并能有效减少推理时间。

📝 摘要(中文)

由于高内存成本和上下文长度限制,多模态大型语言模型(MLLM)在长视频理解方面仍然面临挑战。现有方法通过对短片段中的帧/token进行评分和选择来缓解这个问题,但缺乏一个有效的机制来(i)比较不同视频片段之间的相关性,以及(ii)在收集到足够的证据后停止处理。我们提出了AdaptToken,一个无需训练的框架,它将MLLM的自我不确定性转化为长视频token选择的全局控制信号。AdaptToken将视频分成组,提取跨模态注意力以对每组内的token进行排序,并使用模型的响应熵来估计每组的提示相关性。这种熵信号支持跨组的全局token预算分配,并进一步支持提前停止(AdaptToken-Lite),在模型变得足够确定时跳过剩余的组。在四个长视频基准测试(VideoMME、LongVideoBench、LVBench和MLVU)以及多个基础MLLM(7B-72B)上,AdaptToken始终提高准确性(例如,在Qwen2.5-VL 7B上平均提高+6.7),并继续受益于极长的输入(高达10K帧),而AdaptToken-Lite在性能相当的情况下将推理时间减少约一半。

🔬 方法详解

问题定义:现有的多模态大语言模型在处理长视频时,由于计算资源和上下文窗口的限制,难以有效地提取和利用视频中的关键信息。简单地对所有帧或token进行处理会导致巨大的计算开销,而现有的帧/token选择方法缺乏一种全局的、自适应的机制来衡量不同视频片段的重要性,并且无法在获得足够信息时提前停止处理。

核心思路:AdaptToken的核心思想是利用多模态大语言模型自身的“不确定性”作为一种反馈信号,指导token的选择和预算分配。具体来说,模型对视频片段的响应熵越高,说明模型对该片段的信息越不确定,因此该片段可能包含更多有价值的信息,应该分配更多的token预算。反之,如果模型对某个片段的响应熵很低,说明模型已经掌握了足够的信息,可以减少甚至跳过对该片段的处理。

技术框架:AdaptToken的整体框架包括以下几个主要步骤:1) 将长视频分割成多个组(groups);2) 对于每个组,提取跨模态注意力特征,并根据注意力得分对组内的token进行排序;3) 使用多模态大语言模型的响应熵来估计每个组的提示相关性;4) 根据熵信号,在所有组之间进行全局token预算分配;5) 可选地,如果模型变得足够确定,则提前停止处理剩余的组(AdaptToken-Lite)。

关键创新:AdaptToken最重要的创新点在于它提出了一种基于模型自身不确定性的自适应token选择机制。与现有的基于启发式规则或预训练模型的token选择方法不同,AdaptToken无需额外的训练,并且能够根据模型的实际需求动态地调整token预算分配。此外,AdaptToken-Lite通过提前停止机制,进一步提高了推理效率。

关键设计:AdaptToken的关键设计包括:1) 使用跨模态注意力来衡量token的重要性;2) 使用模型的响应熵作为提示相关性的度量;3) 设计了一种全局token预算分配策略,根据熵信号动态地调整每个组的token数量;4) 实现了一种提前停止机制,当模型的响应熵低于某个阈值时,停止处理剩余的组。具体参数设置(如组的大小、熵阈值等)需要根据具体的任务和数据集进行调整。

📊 实验亮点

AdaptToken在VideoMME、LongVideoBench、LVBench和MLVU四个长视频基准测试上都取得了显著的性能提升。例如,在Qwen2.5-VL 7B模型上,AdaptToken的平均准确率提高了6.7%。此外,AdaptToken能够有效利用极长的输入(高达10K帧),并且AdaptToken-Lite在性能相当的情况下,将推理时间减少了约一半。

🎯 应用场景

AdaptToken可应用于各种需要处理长视频的多模态大语言模型应用场景,例如视频问答、视频摘要、视频内容理解和视频编辑等。通过提高长视频处理的效率和准确性,AdaptToken可以降低计算成本,提升用户体验,并为更复杂的视频分析任务提供支持。

📄 摘要(原文)

Long video understanding remains challenging for Multi-modal Large Language Models (MLLMs) due to high memory costs and context-length limits. Prior approaches mitigate this by scoring and selecting frames/tokens within short clips, but they lack a principled mechanism to (i) compare relevance across distant video clips and (ii) stop processing once sufficient evidence has been gathered. We propose AdaptToken, a training-free framework that turns an MLLM's self-uncertainty into a global control signal for long-video token selection. AdaptToken splits a video into groups, extracts cross-modal attention to rank tokens within each group, and uses the model's response entropy to estimate each group's prompt relevance. This entropy signal enables a global token budget allocation across groups and further supports early stopping (AdaptToken-Lite), skipping the remaining groups when the model becomes sufficiently certain. Across four long-video benchmarks (VideoMME, LongVideoBench, LVBench, and MLVU) and multiple base MLLMs (7B-72B), AdaptToken consistently improves accuracy (e.g., +6.7 on average over Qwen2.5-VL 7B) and continues to benefit from extremely long inputs (up to 10K frames), while AdaptToken-Lite reduces inference time by about half with comparable performance. Project page: https://haozheqi.github.io/adapt-token