Dynamic Token Compression for Efficient Video Understanding through Reinforcement Learning
作者: Shida Wang, YongXiang Hua, Zhou Tao, Haoyu Cao, Linli Xu
分类: cs.CV
发布日期: 2026-03-27
💡 一句话要点
提出SCORE,通过强化学习动态压缩视频tokens,提升长视频理解效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频理解 token压缩 强化学习 多模态大语言模型 长视频处理
📋 核心要点
- 现有视频理解方法因视觉token冗余导致计算成本高昂,且启发式压缩策略缺乏自适应性。
- SCORE通过强化学习自适应地压缩tokens,利用surprise增强的状态表示捕捉时间动态和运动显著性。
- 实验表明,SCORE在显著加速的同时,保持了极高的性能,优于现有方法。
📝 摘要(中文)
多模态大语言模型在视频理解方面表现出卓越的能力,但由于海量的视觉token冗余,面临着巨大的计算成本和“上下文腐烂”导致的性能下降。现有的压缩策略通常依赖于启发式方法或固定的转换,这些方法通常与下游任务目标脱钩,限制了它们的适应性和有效性。为了解决这个问题,我们提出了SCORE(Surprise-augmented token COmpression via REinforcement learning),一个统一的框架,可以学习自适应的token压缩策略。SCORE引入了一个轻量级的策略网络,该网络以surprise增强的状态表示为条件,该状态表示结合了帧间残差,以显式地捕获时间动态和运动显著性。我们使用带有split-advantage估计器的分组强化学习方案来优化此策略,并通过从静态伪视频到真实动态视频的两阶段课程进行稳定。在各种视频理解基准上的大量实验表明,SCORE明显优于最先进的基线。值得注意的是,SCORE在10%的保留率下实现了16倍的预填充加速,同时保留了99.5%的原始性能,为高效的长视频理解提供了一个可扩展的解决方案。
🔬 方法详解
问题定义:现有基于多模态大语言模型的视频理解方法,由于视频中存在大量的视觉token冗余,导致计算成本非常高昂,并且容易出现“上下文腐烂”现象,影响性能。现有的token压缩方法通常采用启发式规则或固定的转换,这些方法与下游任务的目标脱节,无法根据视频内容动态调整压缩策略,限制了其效果。
核心思路:本文的核心思路是通过强化学习来学习一个自适应的token压缩策略。该策略能够根据视频帧的内容和时间动态,动态地选择需要保留的token,从而在保证视频理解性能的同时,显著降低计算成本。这种方法的核心在于将token压缩问题建模为一个序列决策问题,并利用强化学习来寻找最优的压缩策略。
技术框架:SCORE框架主要包含以下几个模块:1) Surprise-augmented状态表示模块:该模块用于提取视频帧的特征,并结合帧间残差来捕捉时间动态和运动显著性。2) 策略网络:该网络以状态表示作为输入,输出每个token的保留概率。3) 强化学习优化模块:该模块使用分组强化学习方案和split-advantage估计器来优化策略网络,并通过两阶段课程学习来稳定训练过程。
关键创新:SCORE的关键创新在于:1) 提出了一个基于强化学习的自适应token压缩框架,能够根据视频内容动态调整压缩策略。2) 引入了surprise增强的状态表示,能够有效地捕捉时间动态和运动显著性。3) 采用了分组强化学习方案和split-advantage估计器,提高了训练的稳定性和效率。
关键设计:SCORE的关键设计包括:1) 状态表示模块中,使用帧间残差来显式地建模时间动态。2) 策略网络采用轻量级的设计,以降低计算成本。3) 强化学习优化模块中,使用两阶段课程学习,首先在静态伪视频上进行预训练,然后在真实动态视频上进行微调,以提高训练的稳定性和泛化能力。
🖼️ 关键图片
📊 实验亮点
SCORE在多个视频理解基准测试中取得了显著的性能提升。例如,在10%的token保留率下,SCORE实现了16倍的预填充加速,同时保留了99.5%的原始性能。与最先进的基线方法相比,SCORE在性能和效率方面都取得了显著的优势,证明了其有效性和实用性。
🎯 应用场景
SCORE具有广泛的应用前景,可用于各种需要高效视频理解的场景,例如视频监控、自动驾驶、智能助手等。通过降低计算成本和提高处理速度,SCORE可以使这些应用在资源受限的设备上运行,并能够处理更长的视频序列,从而提高系统的性能和用户体验。此外,该方法还可以应用于视频摘要、视频检索等领域。
📄 摘要(原文)
Multimodal Large Language Models have demonstrated remarkable capabilities in video understanding, yet face prohibitive computational costs and performance degradation from ''context rot'' due to massive visual token redundancy. Existing compression strategies typically rely on heuristics or fixed transformations that are often decoupled from the downstream task objectives, limiting their adaptability and effectiveness. To address this, we propose SCORE (Surprise-augmented token COmpression via REinforcement learning), a unified framework that learns an adaptive token compression policy. SCORE introduces a lightweight policy network conditioned on a surprise-augmented state representation that incorporates inter-frame residuals to explicitly capture temporal dynamics and motion saliency. We optimize this policy using a group-wise reinforcement learning scheme with a split-advantage estimator, stabilized by a two-stage curriculum transferring from static pseudo-videos to real dynamic videos. Extensive experiments on diverse video understanding benchmarks demonstrate that SCORE significantly outperforms state-of-the-art baselines. Notably, SCORE achieves a 16x prefill speedup while preserving 99.5% of original performance at a 10% retention ratio, offering a scalable solution for efficient long-form video understanding.