PEEK: Picking Essential frames via Efficient Knowledge distillation
作者: Killian Steunou, Anas Filali Razzouki, Khalil Guetari, Mounîm A. El-Yacoubi, Yannis Tevissen
分类: cs.CV
发布日期: 2026-05-29
备注: Supplementary material at https://www.killian-steunou.com/peek/static/pdfs/peek_supplementary.pdf
🔗 代码/项目: GITHUB
💡 一句话要点
PEEK:通过高效知识蒸馏选取视频关键帧,提升视频描述效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频描述 关键帧选择 知识蒸馏 视频理解 自适应采样
📋 核心要点
- 现有视频描述模型受限于处理帧数,均匀采样忽略视觉内容,自适应采样计算成本高昂。
- PEEK通过知识蒸馏,将复杂模型的帧重要性排序能力转移到轻量级模型,实现高效帧选择。
- 实验表明,PEEK在低帧预算下优于现有方法,显著提升视频描述效率,且计算开销极低。
📝 摘要(中文)
视频-语言模型能够处理的帧数有限,使得帧选择成为高效视频描述的关键瓶颈。大多数描述流程仍然依赖于均匀采样,这种方法计算成本低廉,但忽略了视觉内容。自适应帧采样最近成为一种有前景的方法,用于从视频中选择最具信息量的帧;然而,现有方法计算成本仍然很高。我们提出PEEK,一种高效的动态帧采样方法,它将由描述引导的帧相关性排序从更强的教师模型提炼到一个仅在视觉内容上运行的轻量级时间模型中。总体而言,在ActivityNet Captions和MSR-VTT上,我们的方法优于所有评估的下游视觉语言模型中的最先进方法,尤其是在仅选择一到两帧进行描述时,在大多数帧预算下获得了最佳的CIDEr分数。在ActivityNet Captions上,PEEK尤其强大,在16种配置中赢得了14种。在MSR-VTT上的零样本评估表明,我们的模型在低帧预算下迁移效果最佳,而四帧和八帧的结果则更为复杂,因为时间覆盖率和视觉多样性变得越来越有竞争力。与最近的自适应基线相比,PEEK在低预算情况下更准确,效率更高:它仅增加了5.2%的描述时间,而CSTA为65.4%,MaxInfo为211.9%。我们发布了我们的代码和预训练检查点。
🔬 方法详解
问题定义:视频描述任务中,如何高效地选择最具信息量的关键帧,以在有限的计算资源下提升描述质量?现有方法,如均匀采样忽略了视频内容的重要性,而自适应采样方法计算成本过高,难以实际应用。
核心思路:利用知识蒸馏,将一个强大的“教师”模型(能够理解视频内容和描述之间的关系)的知识迁移到一个轻量级的“学生”模型。学生模型仅基于视觉内容进行帧重要性排序,从而实现高效的帧选择。
技术框架:PEEK包含两个主要部分:教师模型和学生模型。教师模型是一个预训练的视频-语言模型,用于生成帧相关性排序。学生模型是一个轻量级的时间模型,输入是视频帧的视觉特征,输出是帧的重要性得分。通过知识蒸馏,学生模型学习模仿教师模型的帧相关性排序。
关键创新:PEEK的核心创新在于利用知识蒸馏,将复杂的视频-语言理解能力转移到一个轻量级的视觉模型中。这使得PEEK能够在保持较高准确率的同时,显著降低计算成本,从而实现高效的动态帧采样。与现有方法相比,PEEK不需要复杂的计算,仅依赖于视觉内容进行帧选择。
关键设计:教师模型可以使用任何预训练的视频-语言模型。学生模型可以使用轻量级的神经网络,如Transformer或LSTM。损失函数可以使用KL散度或均方误差,用于衡量学生模型和教师模型的帧相关性排序之间的差异。训练过程中,教师模型生成帧相关性排序作为监督信号,学生模型学习预测这些排序。
🖼️ 关键图片
📊 实验亮点
PEEK在ActivityNet Captions和MSR-VTT数据集上取得了显著的性能提升,尤其是在低帧预算下。在ActivityNet Captions上,PEEK在16种配置中赢得了14种。与CSTA和MaxInfo等自适应基线相比,PEEK在低预算情况下更准确,并且计算效率更高,仅增加了5.2%的描述时间,而CSTA为65.4%,MaxInfo为211.9%。
🎯 应用场景
PEEK可应用于各种视频理解任务,如视频摘要、视频检索、视频问答等。通过高效地选择关键帧,PEEK能够显著降低计算成本,提高处理效率,尤其适用于资源受限的场景,如移动设备或边缘计算平台。该方法还可用于提升视频监控系统的效率,快速定位异常事件。
📄 摘要(原文)
Video-language models can process only a limited number of frames, making frame selection a key bottleneck for efficient video captioning. Most captioning pipelines still rely on uniform sampling, which is computationally cheap but agnostic to visual content. Adaptive frame sampling has recently emerged as a promising approach for selecting the most informative frames from a video; however, existing methods remain computationally expensive. We introduce PEEK, an efficient dynamic frame sampling method that distills caption-conditioned frame relevance rankings from a stronger teacher model into a lightweight temporal model that operates only on visual content. We find that, overall, on ActivityNet Captions and MSR-VTT, our method outperforms state-of-the-art methods across all evaluated downstream vision language models, especially when only one or two frames are selected for captioning, obtaining the best CIDEr for most frame budgets. On ActivityNet Captions, PEEK is particularly strong, winning 14 out of 16 configurations. Zero-shot evaluation on MSR-VTT shows that our model transfers best at low frame budgets, while results at four and eight frames are more mixed as temporal coverage and visual diversity become increasingly competitive. Compared with recent adaptive baselines, PEEK is both more accurate in the low-budget regime and more efficient: it adds only $5.2\%$ to the captioning time, compared with $65.4\%$ for CSTA and $211.9\%$ for MaxInfo. We release our code and pre-trained checkpoint at https://github.com/momentslab/peek.