MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding

📄 arXiv: 2510.07915v1 📥 PDF

作者: Peiran Wu, Zhuorui Yu, Yunze Liu, Chi-Hao Wu, Enmin Zhou, Junxiao Shen

分类: cs.CV

发布日期: 2025-10-09


💡 一句话要点

提出MARC:一种基于记忆增强强化学习的视频token压缩方法,用于高效视频理解。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 token压缩 强化学习 知识蒸馏 视觉记忆 多模态学习 视频检索

📋 核心要点

  1. 现有视频理解模型计算成本高昂,直接应用大型视觉语言模型面临挑战,而token压缩方法常导致信息损失。
  2. MARC通过视觉记忆检索器选择关键片段,并利用强化学习进行知识蒸馏,在压缩token的同时保留关键信息。
  3. 实验表明,MARC在显著降低计算资源消耗的同时,保持了接近原始模型的性能,具有实际应用潜力。

📝 摘要(中文)

大型语言模型(LLMs)的快速发展为多模态模型奠定了基础。然而,由于高帧率和长时长,视觉语言模型(VLMs)从图像扩展到视频时仍然面临巨大的计算成本。Token压缩是一种有前景的解决方案,但现有的大多数免训练方法会导致信息丢失和性能下降。为了克服这个问题,我们提出了记忆增强强化学习Token压缩(MARC),它集成了结构化检索和基于强化学习的知识蒸馏。MARC采用“检索-然后-压缩”策略,使用视觉记忆检索器(VMR)选择关键片段,并使用压缩组相对策略优化(C-GRPO)框架将推理能力从教师模型提炼到学生模型。在六个视频基准测试上的实验表明,MARC仅使用一帧的token就能达到接近基线的准确率,从而将视觉token减少95%,GPU内存减少72%,延迟减少23.9%。这证明了其在资源受限环境(如视频问答、监控和自动驾驶)中进行高效、实时视频理解的潜力。

🔬 方法详解

问题定义:论文旨在解决视频理解中,由于视频帧率高、时长长导致计算成本过高的问题。现有的token压缩方法,尤其是免训练方法,往往会造成信息丢失,从而导致性能下降。因此,如何在大幅减少token数量的同时,尽可能地保留视频的关键信息,是本研究要解决的核心问题。

核心思路:论文的核心思路是采用“检索-然后-压缩”的策略。首先,利用视觉记忆检索器(VMR)从视频中选择最具代表性的关键片段。然后,使用基于强化学习的压缩组相对策略优化(C-GRPO)框架,将教师模型的推理能力提炼到学生模型,从而在压缩token的同时,尽可能地保留视频的关键信息。这种设计旨在克服传统token压缩方法的信息损失问题。

技术框架:MARC的整体框架包含两个主要模块:视觉记忆检索器(VMR)和压缩组相对策略优化(C-GRPO)。VMR负责从原始视频中检索出关键片段,这些片段被认为是包含视频核心信息的代表性帧。C-GRPO则利用强化学习的方法,训练一个学生模型,使其能够模仿教师模型在这些关键片段上的推理能力,从而实现token压缩。整个流程可以概括为:输入视频 -> VMR检索关键片段 -> 教师模型推理 -> C-GRPO训练学生模型 -> 输出压缩后的视频表示。

关键创新:MARC的关键创新在于将结构化检索和强化学习相结合,用于视频token压缩。传统的token压缩方法往往是无差别地减少token数量,而MARC首先通过VMR选择关键片段,保证了压缩过程保留了视频的核心信息。同时,利用C-GRPO框架,通过强化学习的方式,将教师模型的推理能力迁移到学生模型,避免了直接压缩带来的信息损失。这种结合使得MARC能够在大幅降低计算成本的同时,保持较高的性能。

关键设计:VMR的设计可能涉及到如何构建和维护视觉记忆,以及如何定义关键片段的选择标准。C-GRPO框架的关键设计包括:如何定义强化学习的状态、动作和奖励函数,以及如何设计学生模型的网络结构,使其能够有效地模仿教师模型的推理能力。此外,损失函数的设计也至关重要,需要平衡压缩率和性能之间的关系。具体的参数设置和网络结构细节需要在论文中进一步查找。

📊 实验亮点

实验结果表明,MARC仅使用一帧的token就能达到接近基线的准确率,实现了95%的视觉token减少,72%的GPU内存减少,以及23.9%的延迟降低。这些数据表明,MARC在大幅降低计算资源消耗的同时,保持了较高的性能,具有显著的优势。

🎯 应用场景

MARC具有广泛的应用前景,尤其是在资源受限的环境中。例如,在视频问答系统中,可以利用MARC压缩视频token,降低计算成本,提高响应速度。在监控系统中,可以减少存储空间和带宽需求。在自动驾驶领域,可以加速视频处理,提高决策效率。此外,MARC还可以应用于视频摘要、视频检索等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

The rapid progress of large language models (LLMs) has laid the foundation for multimodal models. However, visual language models (VLMs) still face heavy computational costs when extended from images to videos due to high frame rates and long durations. Token compression is a promising solution, yet most existing training-free methods cause information loss and performance degradation. To overcome this, we propose \textbf{Memory-Augmented Reinforcement Learning-based Token Compression (MARC)}, which integrates structured retrieval and RL-based distillation. MARC adopts a \textit{retrieve-then-compress} strategy using a \textbf{Visual Memory Retriever (VMR)} to select key clips and a \textbf{Compression Group Relative Policy Optimization (C-GRPO)} framework to distil reasoning ability from a teacher to a student model. Experiments on six video benchmarks show that MARC achieves near-baseline accuracy using only one frame's tokens -- reducing visual tokens by \textbf{95\%}, GPU memory by \textbf{72\%}, and latency by \textbf{23.9\%}. This demonstrates its potential for efficient, real-time video understanding in resource-constrained settings such as video QA, surveillance, and autonomous driving.