AdaTP: Attention-Debiased Token Pruning for Video Large Language Models
作者: Fengyuan Sun, Leqi Shen, Hui Chen, Sicheng Zhao, Jungong Han, Guiguang Ding
分类: cs.CV, cs.AI
发布日期: 2025-05-26
💡 一句话要点
AdaTP:面向视频大语言模型的注意力解偏 Token 剪枝
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频大语言模型 Token剪枝 注意力机制 注意力解偏 视频理解
📋 核心要点
- 现有Video LLM计算开销大,视觉token压缩方法依赖的注意力分数存在全局和局部偏差。
- AdaTP通过集成全局和局部解偏模块,在token剪枝过程中消除注意力偏差,提升模型效率。
- 实验表明,AdaTP在显著降低计算开销的同时,保持了Video LLM在视频理解任务中的性能。
📝 摘要(中文)
视频大语言模型(Video LLMs)在视频理解任务中取得了显著成果。然而,由于多帧视频产生的大量视觉tokens,它们通常面临着巨大的计算开销。现有的视觉token压缩方法通常依赖于来自语言模型的注意力分数作为指导。然而,这些分数表现出固有的偏差:全局偏差反映了一种关注视觉token序列两端的趋势,而局部偏差导致了对不同帧中相同空间位置的过度关注。为了解决注意力偏差问题,我们提出了一种用于Video LLMs的新型token剪枝流程——注意力解偏Token剪枝(AdaTP)。AdaTP将两个专门的解偏模块集成到流程中,分别针对全局注意偏差和局部注意偏差。在不需要额外训练的情况下,我们的方法显著降低了Video LLMs的计算开销,同时保留了原始模型的性能。广泛的评估表明,AdaTP在各种常用的视频理解基准测试中实现了最先进的性能。特别是在LLaVA-OneVision-7B上,AdaTP在仅使用高达27.3%的FLOPs的情况下,保持了与原始模型相当的性能。我们的代码即将发布。
🔬 方法详解
问题定义:Video LLM由于需要处理大量视频帧,产生了大量的视觉tokens,导致计算开销巨大。现有的token压缩方法依赖语言模型的注意力分数来指导token剪枝,但这些注意力分数存在偏差,包括全局偏差(倾向于关注序列两端)和局部偏差(倾向于关注相同空间位置),影响了剪枝的准确性,导致性能下降。
核心思路:AdaTP的核心思路是通过解偏模块消除注意力偏差,从而更准确地评估token的重要性,实现更有效的token剪枝。通过消除全局和局部偏差,模型可以更公平地评估每个token的价值,避免过度关注某些特定位置或帧,从而在减少计算量的同时保持性能。
技术框架:AdaTP是一个token剪枝的pipeline,主要包含以下模块:1) 视觉编码器:提取视频帧的视觉特征,生成视觉tokens;2) 注意力偏差评估:评估语言模型注意力分数中的全局和局部偏差;3) 全局解偏模块:消除全局注意力偏差,使模型更均匀地关注整个token序列;4) 局部解偏模块:消除局部注意力偏差,避免模型过度关注相同空间位置;5) Token剪枝:根据解偏后的注意力分数,剪枝不重要的tokens;6) 语言模型:利用剪枝后的tokens进行视频理解任务。
关键创新:AdaTP的关键创新在于提出了专门针对Video LLM注意力偏差的解偏模块。与现有方法直接使用有偏差的注意力分数进行token剪枝不同,AdaTP通过全局和局部解偏模块,有效地消除了注意力偏差,从而提高了token剪枝的准确性和效率。这种解偏方法不需要额外的训练,可以直接应用于现有的Video LLM。
关键设计:全局解偏模块和局部解偏模块是AdaTP的关键设计。全局解偏模块可能采用某种归一化或重加权策略,使得模型对token序列的各个位置的关注度更加均匀。局部解偏模块可能通过抑制相邻帧相同空间位置的注意力权重,来避免模型过度关注这些位置。具体的参数设置、损失函数和网络结构等技术细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
AdaTP在LLaVA-OneVision-7B上,仅使用27.3%的FLOPs,就能够保持与原始模型相当的性能,显著降低了计算开销。在其他视频理解基准测试中,AdaTP也取得了state-of-the-art的性能,证明了其有效性和通用性。这些实验结果表明,AdaTP能够有效地消除注意力偏差,提高token剪枝的准确性和效率。
🎯 应用场景
AdaTP可应用于各种需要处理长视频序列的视频理解任务,例如视频问答、视频摘要、动作识别等。通过降低计算开销,AdaTP使得Video LLM能够在资源受限的设备上运行,并能够处理更长的视频序列。该研究对于推动Video LLM在实际场景中的应用具有重要意义。
📄 摘要(原文)
Video Large Language Models (Video LLMs) have achieved remarkable results in video understanding tasks. However, they often suffer from heavy computational overhead due to the large number of visual tokens generated from multiple video frames. Existing visual token compression methods often rely on attention scores from language models as guidance. However, these scores exhibit inherent biases: global bias reflects a tendency to focus on the two ends of the visual token sequence, while local bias leads to an over-concentration on the same spatial positions across different frames. To address the issue of attention bias, we propose $\textbf{A}$ttention-$\textbf{D}$ebi$\textbf{a}$sed $\textbf{T}$oken $\textbf{P}$runing for Video Large Language Models ($\textbf{AdaTP}$), a novel token pruning pipeline for Video LLMs. AdaTP integrates two dedicated debiasing modules into the pipeline, targeting global attention bias and local attention bias, respectively. Without the need for additional training, our method significantly reduces the computational overhead of Video LLMs while retaining the performance of vanilla models. Extensive evaluation shows that AdaTP achieves state-of-the-art performance in various commonly used video understanding benchmarks. In particular, on LLaVA-OneVision-7B, AdaTP maintains performance without degradation while using only up to $27.3\%$ FLOPs compared to the vanilla model. Our code will be released soon.