Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation

📄 arXiv: 2504.02438v5 📥 PDF

作者: Chuanqi Cheng, Jian Guan, Wei Wu, Rui Yan

分类: cs.CL, cs.AI

发布日期: 2025-04-03 (更新: 2025-09-10)

备注: Accepted by ICML 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出ViLAMP,通过分层差分蒸馏实现万帧长视频的视频-语言模型高效处理。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 长视频理解 视频-语言模型 差分蒸馏 关键帧选择 特征合并

📋 核心要点

  1. 长视频处理对视觉-语言模型提出了挑战,现有方法在效率和信息保留间难以平衡。
  2. ViLAMP通过差分蒸馏,选择关键帧并合并非关键帧特征,实现混合精度处理。
  3. 实验表明,ViLAMP在长视频理解任务上表现出色,并能在单GPU上处理万帧视频。

📝 摘要(中文)

由于处理长时序视频的高计算成本,长视频处理对视觉-语言模型(VLM)提出了根本性的挑战。现有的token剪枝和特征合并方法通常会牺牲关键的时间依赖性或稀释语义信息。我们引入差分蒸馏,这是一种系统地保留任务相关信息同时抑制冗余的原则性方法。基于此,我们开发了ViLAMP,一种分层视频-语言模型,通过两种关键机制以“混合精度”处理长达一小时的视频:(1)差分关键帧选择,在帧级别最大化查询相关性并保持时间独特性;(2)差分特征合并,在patch级别保留非关键帧中的查询显著特征。因此,ViLAMP保留关键帧中的完整信息,同时将非关键帧简化为其最显著的特征,类似于混合精度训练。大量实验表明,ViLAMP在四个视频理解基准测试中表现出色,尤其是在长视频内容上。值得注意的是,ViLAMP可以在单个NVIDIA A100 GPU上处理超长视频(高达10K帧),在保持最先进性能的同时,实现了显著的计算效率。代码和模型可在https://github.com/steven-ccq/ViLAMP 获得。

🔬 方法详解

问题定义:现有视觉-语言模型在处理长视频时面临计算量巨大的问题。简单的token剪枝或特征合并方法会丢失关键的时间依赖关系或稀释语义信息,导致性能下降。因此,如何在保证性能的同时,降低长视频处理的计算成本是一个关键问题。

核心思路:ViLAMP的核心思路是“差分蒸馏”,即区别对待视频帧,对关键帧保留完整信息,对非关键帧仅保留最显著的特征。这种方法类似于混合精度训练,旨在在信息损失和计算效率之间找到最佳平衡点。通过这种方式,模型可以专注于与任务最相关的部分,从而减少冗余计算。

技术框架:ViLAMP采用分层架构。首先,通过差分关键帧选择模块,根据查询相关性和时间独特性,从视频中选择关键帧。然后,对于非关键帧,使用差分特征合并模块,提取并保留查询显著的特征。最后,将关键帧的完整信息和非关键帧的显著特征输入到后续的视觉-语言模型中进行处理。

关键创新:ViLAMP的关键创新在于差分蒸馏的思想,以及基于此思想设计的差分关键帧选择和差分特征合并模块。与现有方法不同,ViLAMP不是简单地减少token数量或合并特征,而是有选择性地保留与任务最相关的信息,从而在保证性能的同时,显著降低计算成本。

关键设计:差分关键帧选择模块通过计算每一帧与查询的相关性得分,并结合时间独特性指标,选择最具代表性的关键帧。差分特征合并模块则通过注意力机制,提取非关键帧中与查询最相关的patch特征。损失函数的设计旨在鼓励模型学习到更具判别性的特征表示,并更好地保留关键信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ViLAMP在四个视频理解基准测试中表现出色,尤其是在长视频内容上。该模型能够在单个NVIDIA A100 GPU上处理高达10K帧的超长视频,并在保持最先进性能的同时,实现了显著的计算效率提升。具体性能数据和对比基线结果可在论文原文中找到。

🎯 应用场景

ViLAMP在视频内容理解领域具有广泛的应用前景,例如视频摘要、视频检索、视频问答等。该模型能够高效处理长视频,使其在监控视频分析、电影理解、在线教育等领域具有实际应用价值。未来,ViLAMP可以进一步扩展到其他多模态任务,例如结合语音和文本信息进行更全面的视频理解。

📄 摘要(原文)

Long-form video processing fundamentally challenges vision-language models (VLMs) due to the high computational costs of handling extended temporal sequences. Existing token pruning and feature merging methods often sacrifice critical temporal dependencies or dilute semantic information. We introduce differential distillation, a principled approach that systematically preserves task-relevant information while suppressing redundancy. Based on this principle, we develop ViLAMP, a hierarchical video-language model that processes hour-long videos at "mixed precision" through two key mechanisms: (1) differential keyframe selection that maximizes query relevance while maintaining temporal distinctiveness at the frame level and (2) differential feature merging that preserves query-salient features in non-keyframes at the patch level. Hence, ViLAMP retains full information in keyframes while reducing non-keyframes to their most salient features, resembling mixed-precision training. Extensive experiments demonstrate ViLAMP's superior performance across four video understanding benchmarks, particularly on long-form content. Notably, ViLAMP can process ultra-long videos (up to 10K frames) on a single NVIDIA A100 GPU, achieving substantial computational efficiency while maintaining state-of-the-art performance. Code and model are available at https://github.com/steven-ccq/ViLAMP.