AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding

作者: Haozhe Qi, Kevin Qu, Mahdi Rad, Rui Wang, Alexander Mathis, Marc Pollefeys

分类: cs.CV, cs.AI

发布日期: 2026-03-30

备注: Project page: https://haozheqi.github.io/adapt-token

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

AdaptToken：基于熵自适应Token选择的长视频理解方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态大语言模型 Token选择 自适应算法 信息熵 跨模态注意力 视频问答

📋 核心要点

多模态大语言模型处理长视频时，面临内存消耗大和上下文长度受限的挑战。
AdaptToken利用模型自身的不确定性（熵）作为信号，自适应地选择和分配token预算。
实验表明，AdaptToken在多个长视频数据集上显著提升了准确率，并能有效减少推理时间。

📝 摘要（中文）

由于高内存成本和上下文长度限制，多模态大型语言模型（MLLM）在长视频理解方面仍然面临挑战。现有方法通过对短片段中的帧/token进行评分和选择来缓解这个问题，但缺乏一个有效的机制来（i）比较不同视频片段之间的相关性，以及（ii）在收集到足够的证据后停止处理。我们提出了AdaptToken，一个无需训练的框架，它将MLLM的自我不确定性转化为长视频token选择的全局控制信号。AdaptToken将视频分成组，提取跨模态注意力以对每组内的token进行排序，并使用模型的响应熵来估计每组的提示相关性。这种熵信号支持跨组的全局token预算分配，并进一步支持提前停止（AdaptToken-Lite），在模型变得足够确定时跳过剩余的组。在四个长视频基准测试（VideoMME、LongVideoBench、LVBench和MLVU）以及多个基础MLLM（7B-72B）上，AdaptToken始终提高准确性（例如，在Qwen2.5-VL 7B上平均提高+6.7），并继续受益于极长的输入（高达10K帧），而AdaptToken-Lite在性能相当的情况下将推理时间减少约一半。

🔬 方法详解

问题定义：现有的多模态大语言模型在处理长视频时，由于计算资源和上下文窗口的限制，难以有效地提取和利用视频中的关键信息。简单地对所有帧或token进行处理会导致巨大的计算开销，而现有的帧/token选择方法缺乏一种全局的、自适应的机制来衡量不同视频片段的重要性，并且无法在获得足够信息时提前停止处理。

核心思路：AdaptToken的核心思想是利用多模态大语言模型自身的“不确定性”作为一种反馈信号，指导token的选择和预算分配。具体来说，模型对视频片段的响应熵越高，说明模型对该片段的信息越不确定，因此该片段可能包含更多有价值的信息，应该分配更多的token预算。反之，如果模型对某个片段的响应熵很低，说明模型已经掌握了足够的信息，可以减少甚至跳过对该片段的处理。

技术框架：AdaptToken的整体框架包括以下几个主要步骤：1) 将长视频分割成多个组（groups）；2) 对于每个组，提取跨模态注意力特征，并根据注意力得分对组内的token进行排序；3) 使用多模态大语言模型的响应熵来估计每个组的提示相关性；4) 根据熵信号，在所有组之间进行全局token预算分配；5) 可选地，如果模型变得足够确定，则提前停止处理剩余的组（AdaptToken-Lite）。

关键创新：AdaptToken最重要的创新点在于它提出了一种基于模型自身不确定性的自适应token选择机制。与现有的基于启发式规则或预训练模型的token选择方法不同，AdaptToken无需额外的训练，并且能够根据模型的实际需求动态地调整token预算分配。此外，AdaptToken-Lite通过提前停止机制，进一步提高了推理效率。

关键设计：AdaptToken的关键设计包括：1) 使用跨模态注意力来衡量token的重要性；2) 使用模型的响应熵作为提示相关性的度量；3) 设计了一种全局token预算分配策略，根据熵信号动态地调整每个组的token数量；4) 实现了一种提前停止机制，当模型的响应熵低于某个阈值时，停止处理剩余的组。具体参数设置（如组的大小、熵阈值等）需要根据具体的任务和数据集进行调整。

📊 实验亮点

AdaptToken在VideoMME、LongVideoBench、LVBench和MLVU四个长视频基准测试上都取得了显著的性能提升。例如，在Qwen2.5-VL 7B模型上，AdaptToken的平均准确率提高了6.7%。此外，AdaptToken能够有效利用极长的输入（高达10K帧），并且AdaptToken-Lite在性能相当的情况下，将推理时间减少了约一半。

🎯 应用场景

AdaptToken可应用于各种需要处理长视频的多模态大语言模型应用场景，例如视频问答、视频摘要、视频内容理解和视频编辑等。通过提高长视频处理的效率和准确性，AdaptToken可以降低计算成本，提升用户体验，并为更复杂的视频分析任务提供支持。

📄 摘要（原文）

Long video understanding remains challenging for Multi-modal Large Language Models (MLLMs) due to high memory costs and context-length limits. Prior approaches mitigate this by scoring and selecting frames/tokens within short clips, but they lack a principled mechanism to (i) compare relevance across distant video clips and (ii) stop processing once sufficient evidence has been gathered. We propose AdaptToken, a training-free framework that turns an MLLM's self-uncertainty into a global control signal for long-video token selection. AdaptToken splits a video into groups, extracts cross-modal attention to rank tokens within each group, and uses the model's response entropy to estimate each group's prompt relevance. This entropy signal enables a global token budget allocation across groups and further supports early stopping (AdaptToken-Lite), skipping the remaining groups when the model becomes sufficiently certain. Across four long-video benchmarks (VideoMME, LongVideoBench, LVBench, and MLVU) and multiple base MLLMs (7B-72B), AdaptToken consistently improves accuracy (e.g., +6.7 on average over Qwen2.5-VL 7B) and continues to benefit from extremely long inputs (up to 10K frames), while AdaptToken-Lite reduces inference time by about half with comparable performance. Project page: https://haozheqi.github.io/adapt-token

AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理