LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders
作者: Ilan Naiman, Emanuel Ben-Baruch, Oron Anschel, Alon Shoshan, Igor Kviatkovsky, Manoj Aggarwal, Gerard Medioni
分类: cs.CV
发布日期: 2025-04-04 (更新: 2025-10-07)
备注: Accepted to the International Conference on Computer Vision, ICCV 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出LV-MAE,通过掩码嵌入自编码器学习长视频表征,提升长视频理解能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 自监督学习 掩码自编码器 视频表征学习 长程时序建模
📋 核心要点
- 现有方法难以有效处理长视频,无法捕捉长程时序依赖关系,且通常依赖短视频数据集进行预训练。
- LV-MAE将短程和长程依赖解耦,先编码短时空基元,再利用掩码嵌入自编码器捕获片段间的长程依赖。
- LV-MAE在LVU、COIN和Breakfast三个长视频基准上取得SOTA结果,证明了其有效性,且可使用长视频进行自监督预训练。
📝 摘要(中文)
本文提出了一种用于长视频表征的自监督学习框架:长视频掩码嵌入自编码器(LV-MAE)。该方法将短程和长程依赖关系视为两个独立的任务。这种解耦使得视频处理更加直观,首先编码短程时空基元,然后利用这些基元来捕获连续视频片段之间的长程依赖关系。为此,我们利用先进的现成多模态编码器从长视频中的短片段中提取表征,然后预训练一个掩码嵌入自编码器,以捕获片段之间的高级交互。LV-MAE训练效率高,并通过减轻输入帧数的限制,能够处理更长的视频。此外,与通常在短视频数据集上进行预训练的现有方法不同,我们的方法提供了使用大规模长视频样本(例如,20+分钟的视频片段)进行自监督预训练的能力。使用LV-MAE表征,我们在三个长视频基准测试(LVU、COIN和Breakfast)上取得了最先进的结果,仅使用一个简单的分类头进行注意力或线性探测。最后,为了评估LV-MAE预训练并可视化其重建质量,我们利用短视频表征的视频-语言对齐空间来监控LV-MAE。
🔬 方法详解
问题定义:现有长视频理解方法通常难以捕捉视频中的长程时序依赖关系,并且计算复杂度较高,难以处理超长视频。此外,许多方法依赖于在短视频数据集上进行预训练,这限制了模型在长视频上的泛化能力。因此,需要一种能够有效学习长视频表征,并能利用长视频数据进行自监督预训练的方法。
核心思路:LV-MAE的核心思路是将长视频处理分解为两个阶段:首先,利用现成的多模态编码器提取短视频片段的表征,捕捉短程时空信息;然后,使用掩码嵌入自编码器学习这些片段表征之间的长程依赖关系。通过这种解耦,模型可以更有效地处理长视频,并减轻对输入帧数的限制。
技术框架:LV-MAE的整体框架包括以下几个主要模块:1) 短视频片段编码器:使用预训练的多模态编码器(例如,VideoCLIP)提取短视频片段的表征。2) 掩码模块:随机掩盖一部分片段的表征。3) 编码器:将未被掩盖的片段表征输入编码器,学习上下文信息。4) 解码器:利用编码器的输出和掩码信息,重建被掩盖的片段表征。5) 损失函数:计算重建表征与原始表征之间的差异,用于优化模型。
关键创新:LV-MAE的关键创新在于其解耦的结构和掩码嵌入自编码器的应用。通过将短程和长程依赖关系分离,模型可以更有效地学习长视频表征。此外,使用掩码嵌入自编码器进行自监督预训练,使得模型能够利用大规模长视频数据,而无需人工标注。
关键设计:LV-MAE的关键设计包括:1) 使用预训练的多模态编码器提取短视频片段的表征,利用了现有的知识。2) 采用高比例的掩码策略,迫使模型学习更鲁棒的表征。3) 使用均方误差(MSE)作为重建损失函数,衡量重建表征与原始表征之间的差异。4) 可以灵活选择不同的编码器和解码器结构,例如Transformer。
🖼️ 关键图片
📊 实验亮点
LV-MAE在三个长视频基准测试(LVU、COIN和Breakfast)上取得了最先进的结果。例如,在LVU数据集上,LV-MAE的性能显著优于现有方法。此外,通过视频-文本检索实验,验证了LV-MAE预训练的有效性和重建质量。
🎯 应用场景
LV-MAE可应用于各种长视频理解任务,如视频摘要、行为识别、视频检索和视频编辑。其自监督学习能力使其能够利用大量未标注的长视频数据,降低了对人工标注的依赖。该方法在教育视频、电影分析、体育赛事分析等领域具有广泛的应用前景。
📄 摘要(原文)
In this work, we introduce long-video masked-embedding autoencoders (LV-MAE), a self-supervised learning framework for long video representation. Our approach treats short- and long-span dependencies as two separate tasks. Such decoupling allows for a more intuitive video processing where short-span spatiotemporal primitives are first encoded and are then used to capture long-range dependencies across consecutive video segments. To achieve this, we leverage advanced off-the-shelf multimodal encoders to extract representations from short segments within the long video, followed by pre-training a masked-embedding autoencoder capturing high-level interactions across segments. LV-MAE is highly efficient to train and enables the processing of much longer videos by alleviating the constraint on the number of input frames. Furthermore, unlike existing methods that typically pre-train on short-video datasets, our approach offers self-supervised pre-training using long video samples (e.g., 20+ minutes video clips) at scale. Using LV-MAE representations, we achieve state-of-the-art results on three long-video benchmarks -- LVU, COIN, and Breakfast -- employing only a simple classification head for either attentive or linear probing. Finally, to assess LV-MAE pre-training and visualize its reconstruction quality, we leverage the video-language aligned space of short video representations to monitor LV-MAE through video-text retrieval. Code is available at https://github.com/amazon-science/lv-mae.