Recurrent Video Masked Autoencoders

📄 arXiv: 2512.13684v1 📥 PDF

作者: Daniel Zoran, Nikhil Parthasarathy, Yi Yang, Drew A Hudson, Joao Carreira, Andrew Zisserman

分类: cs.CV

发布日期: 2025-12-15


💡 一句话要点

提出RVM:一种基于Transformer循环神经网络的视频掩码自编码器,用于高效视频表征学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频表征学习 循环神经网络 Transformer 掩码自编码器 时空建模

📋 核心要点

  1. 现有视频模型在时空建模和参数效率方面存在挑战,尤其是在长时序视频理解中。
  2. RVM利用循环Transformer聚合图像特征,通过掩码自编码器学习视频的时空结构,实现高效的视频表征。
  3. RVM在动作识别、目标跟踪等任务上表现出色,参数效率显著提升,并能稳定传播长时序特征。

📝 摘要(中文)

本文提出了一种循环视频掩码自编码器(RVM),这是一种新颖的视频表征学习方法,它使用基于Transformer的循环神经网络来聚合密集图像特征随时间的变化,从而有效地捕获自然视频数据的时空结构。RVM通过非对称掩码预测任务进行学习,仅需要标准的像素重建目标。这种设计产生了一个高效的“通用”编码器:RVM在视频级别的任务(如动作识别和点/对象跟踪)上实现了与最先进的视频模型(例如VideoMAE,V-JEPA)相媲美的性能,同时在测试几何和密集空间理解的任务上,也优于图像模型(例如DINOv2)。值得注意的是,RVM在小型模型机制中实现了强大的性能,而无需知识蒸馏,与竞争的视频掩码自动编码器相比,参数效率提高了30倍。此外,我们证明了RVM的循环特性允许在较长的时间范围内进行稳定的特征传播,且计算成本呈线性增长,克服了标准基于时空注意力的架构的一些局限性。最后,我们使用定性可视化来突出显示RVM学习了丰富的场景语义、结构和运动表示。

🔬 方法详解

问题定义:现有视频模型,如VideoMAE和V-JEPA,在计算成本和参数效率方面存在挑战,尤其是在处理长时程视频时,基于注意力机制的模型计算复杂度较高。此外,如何学习到既能用于视频理解,又能用于图像理解的通用表征也是一个问题。

核心思路:RVM的核心思路是利用循环神经网络(RNN)来聚合视频帧的特征,从而有效地捕获视频的时空结构。通过结合Transformer的强大表征能力和RNN的序列建模能力,RVM能够在长时程视频中进行有效的特征传播,同时保持较低的计算复杂度。掩码自编码器(MAE)的非对称结构用于高效的预训练。

技术框架:RVM的整体架构包括以下几个主要模块:1) 图像特征提取器:用于提取视频帧的密集图像特征。可以使用预训练的图像模型,如DINOv2。2) 循环Transformer编码器:该模块是RVM的核心,它使用循环神经网络来聚合图像特征随时间的变化。Transformer用于增强特征表达能力。3) 掩码策略:采用非对称掩码策略,即编码器只处理未被掩码的帧,而解码器则需要重建所有帧。4) 重建损失:使用像素重建损失作为训练目标,鼓励模型学习视频的时空结构。

关键创新:RVM的关键创新在于将循环神经网络与Transformer相结合,用于视频表征学习。这种结合克服了传统基于注意力机制的视频模型的计算复杂度问题,同时实现了长时程视频的有效建模。此外,RVM的非对称掩码策略和像素重建目标使得模型能够学习到通用的视频表征,既能用于视频理解任务,又能用于图像理解任务。

关键设计:RVM的关键设计包括:1) 循环Transformer的结构:具体RNN单元的选择(如GRU或LSTM)以及Transformer的层数和头数。2) 掩码比例:控制需要掩码的帧的比例,通常设置为较高的值(如70%-90%)以提高学习效率。3) 损失函数:像素重建损失的具体形式,如L1或L2损失。4) 训练策略:包括学习率、batch size和优化器等参数的设置。

📊 实验亮点

RVM在动作识别和目标跟踪等视频任务上取得了与最先进模型(如VideoMAE和V-JEPA)相媲美的性能,同时在几何和密集空间理解的图像任务上优于DINOv2。RVM在小模型机制下表现出色,无需知识蒸馏,参数效率比其他视频掩码自编码器高30倍。RVM能够稳定地传播长时程特征,计算成本呈线性增长。

🎯 应用场景

RVM具有广泛的应用前景,包括视频监控、自动驾驶、机器人导航、视频编辑和内容分析等领域。其高效的视频表征学习能力可以用于提升这些应用中的性能,例如,在视频监控中进行异常行为检测,在自动驾驶中进行场景理解和预测,在机器人导航中进行视觉定位和路径规划。RVM的通用性使其能够适应不同的视觉任务,具有很高的实际应用价值。

📄 摘要(原文)

We present Recurrent Video Masked-Autoencoders (RVM): a novel video representation learning approach that uses a transformer-based recurrent neural network to aggregate dense image features over time, effectively capturing the spatio-temporal structure of natural video data. RVM learns via an asymmetric masked prediction task requiring only a standard pixel reconstruction objective. This design yields a highly efficient ``generalist'' encoder: RVM achieves competitive performance with state-of-the-art video models (e.g. VideoMAE, V-JEPA) on video-level tasks like action recognition and point/object tracking, while also performing favorably against image models (e.g. DINOv2) on tasks that test geometric and dense spatial understanding. Notably, RVM achieves strong performance in the small-model regime without requiring knowledge distillation, exhibiting up to 30x greater parameter efficiency than competing video masked autoencoders. Moreover, we demonstrate that RVM's recurrent nature allows for stable feature propagation over long temporal horizons with linear computational cost, overcoming some of the limitations of standard spatio-temporal attention-based architectures. Finally, we use qualitative visualizations to highlight that RVM learns rich representations of scene semantics, structure, and motion.