Extending Video Masked Autoencoders to 128 frames
作者: Nitesh Bharadwaj Gundavarapu, Luke Friedman, Raghav Goyal, Chaitra Hegde, Eirikur Agustsson, Sagar M. Waghmare, Mikhail Sirotenko, Ming-Hsuan Yang, Tobias Weyand, Boqing Gong, Leonid Sigal
分类: cs.CV
发布日期: 2024-11-20
备注: 10.5 pages of main paper, 25 pages total, 4 figures and 10 tables. To appear in NeurIPS'24
💡 一句话要点
提出长视频掩码自编码器(LVMAE),有效处理128帧视频,提升视频理解性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 掩码自编码器 自适应掩码 视频表示学习 视频分类
📋 核心要点
- 现有视频MAE方法受限于硬件资源,难以处理长视频(>32帧),限制了模型对时序信息的建模能力。
- 提出自适应解码器掩码策略,优先重建重要tokens,并结合MAGVIT tokenizer学习tokens优先级,从而有效处理长视频。
- 实验表明,LVMAE在Diving48和EPIC-Kitchens-100数据集上显著优于现有方法,证明了长视频建模的有效性。
📝 摘要(中文)
本文提出了一种针对长视频的掩码自编码器(MAE)训练策略,旨在解决现有方法在处理较长视频序列(如128帧)时面临的硬件内存和计算瓶颈。核心思想是采用自适应解码器掩码策略,优先重建最重要的tokens,并使用量化的tokens作为重建目标。该策略利用基于MAGVIT的tokenizer,联合学习tokens及其优先级。通过详尽的实验验证,表明所提出的长视频编码器(LVMAE)优于短视频编码器(32帧)。在Diving48数据集上,LVMAE超越了现有技术3.9个百分点,在EPIC-Kitchens-100动词分类任务上提升了2.5个百分点,且仅依赖于简单的核心架构和视频数据预训练。
🔬 方法详解
问题定义:现有基于掩码自编码器(MAE)的视频理解方法,由于自注意力机制的内存密集型计算,难以扩展到较长的视频序列(例如超过32帧)。这限制了模型捕捉长时序依赖关系的能力,影响了视频理解的性能。现有方法通常采用随机或均匀掩码策略,效率较低。
核心思路:本文的核心思路是采用一种自适应的解码器掩码策略,优先重建视频中最重要的tokens。通过这种方式,可以在有限的计算资源下,最大化模型学习到的信息量,从而有效地处理长视频序列。同时,使用量化的tokens作为重建目标,进一步提升重建效率和性能。
技术框架:整体框架包括一个编码器、一个解码器和一个基于MAGVIT的tokenizer。首先,视频帧被输入到编码器中提取特征。然后,tokenizer将编码器的输出量化为离散的tokens,并学习每个token的优先级。在解码阶段,根据学习到的优先级,自适应地选择一部分tokens进行重建。解码器的输出用于预测原始视频帧,通过最小化重建误差来训练整个模型。
关键创新:最重要的创新点在于自适应解码器掩码策略。与传统的随机或均匀掩码策略不同,该策略能够根据tokens的重要性动态地调整掩码比例,从而更加高效地利用计算资源。此外,结合MAGVIT tokenizer联合学习tokens及其优先级,使得模型能够更好地理解视频内容,并选择最相关的tokens进行重建。
关键设计:MAGVIT tokenizer用于将视频特征量化为离散的tokens,并学习每个token的优先级。解码器掩码比例根据tokens的优先级动态调整,优先级高的tokens更容易被选中进行重建。损失函数包括重建损失和量化损失,用于优化编码器、解码器和tokenizer。具体的网络结构和参数设置根据不同的数据集和任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LVMAE在Diving48数据集上超越了现有技术3.9个百分点,在EPIC-Kitchens-100动词分类任务上提升了2.5个百分点。这些结果证明了LVMAE在长视频理解方面的有效性,并且在仅使用视频数据预训练的情况下,也能取得优异的性能。
🎯 应用场景
该研究成果可广泛应用于视频理解领域,例如视频分类、动作识别、视频摘要、视频检索等。通过提升模型对长视频序列的理解能力,可以更好地应用于监控视频分析、自动驾驶、智能安防等实际场景,具有重要的应用价值和潜力。
📄 摘要(原文)
Video understanding has witnessed significant progress with recent video foundation models demonstrating strong performance owing to self-supervised pre-training objectives; Masked Autoencoders (MAE) being the design of choice. Nevertheless, the majority of prior works that leverage MAE pre-training have focused on relatively short video representations (16 / 32 frames in length) largely due to hardware memory and compute limitations that scale poorly with video length due to the dense memory-intensive self-attention decoding. One natural strategy to address these challenges is to subsample tokens to reconstruct during decoding (or decoder masking). In this work, we propose an effective strategy for prioritizing tokens which allows training on longer video sequences (128 frames) and gets better performance than, more typical, random and uniform masking strategies. The core of our approach is an adaptive decoder masking strategy that prioritizes the most important tokens and uses quantized tokens as reconstruction objectives. Our adaptive strategy leverages a powerful MAGVIT-based tokenizer that jointly learns the tokens and their priority. We validate our design choices through exhaustive ablations and observe improved performance of the resulting long-video (128 frames) encoders over short-video (32 frames) counterparts. With our long-video masked autoencoder (LVMAE) strategy, we surpass state-of-the-art on Diving48 by 3.9 points and EPIC-Kitchens-100 verb classification by 2.5 points while relying on a simple core architecture and video-only pre-training (unlike some of the prior works that require millions of labeled video-text pairs or specialized encoders).