Scaling 4D Representations

📄 arXiv: 2412.15212v2 📥 PDF

作者: João Carreira, Dilara Gokay, Michael King, Chuhan Zhang, Ignacio Rocco, Aravindh Mahendran, Thomas Albert Keck, Joseph Heyward, Skanda Koppula, Etienne Pot, Goker Erdogan, Yana Hasson, Yi Yang, Klaus Greff, Guillaume Le Moing, Sjoerd van Steenkiste, Daniel Zoran, Drew A. Hudson, Pedro Vélez, Luisa Polanía, Luke Friedman, Chris Duvarney, Ross Goroshin, Kelsey Allen, Jacob Walker, Rishabh Kabra, Eric Aboussouan, Jennifer Sun, Thomas Kipf, Carl Doersch, Viorica Pătrăucean, Dima Damen, Pauline Luc, Mehdi S. M. Sajjadi, Andrew Zisserman

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-12-19 (更新: 2025-07-09)

🔗 代码/项目: GITHUB


💡 一句话要点

通过扩展4D表征,显著提升视频自监督学习在时空任务上的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视频自监督学习 4D表征 掩码自编码 Transformer视频模型 时空任务

📋 核心要点

  1. 现有视频自监督学习在语义相关任务上评估较多,缺乏在时空任务上的有效扩展性研究。
  2. 论文提出利用大规模视频数据,通过掩码自编码(MAE)方法训练Transformer视频模型,学习有效的4D表征。
  3. 实验结果表明,随着模型规模增大,该方法在相机姿态估计、点和物体追踪、深度估计等4D任务上性能持续提升。

📝 摘要(中文)

本文研究了视频自监督学习的扩展性问题,尤其关注非语义的视觉任务,即更偏向空间(3D)和时间(+1D=4D)的任务,如相机姿态估计、点和物体追踪以及深度估计。研究表明,通过从海量视频数据集中学习,使用Transformer视频模型的掩码自编码(MAE)方法能够有效扩展,并且随着模型规模从20M增加到目前为止最大的自监督视频模型(22B参数),在这些4D任务上的性能持续提升。通过与许多最新的图像和视频模型进行严格的同等条件比较,证明了扩展4D表征的优势。预训练模型已在https://github.com/google-deepmind/representations4d 公开。

🔬 方法详解

问题定义:现有视频自监督学习研究主要集中在动作分类、ImageNet分类等语义相关任务上,缺乏对相机姿态估计、点和物体追踪、深度估计等非语义时空(4D)任务的有效评估和优化。现有方法在这些任务上的性能提升有限,难以充分利用大规模视频数据的潜力。

核心思路:论文的核心思路是通过大规模视频数据训练Transformer视频模型,利用掩码自编码(MAE)方法学习有效的4D表征。通过预测被掩盖的视频片段,模型能够学习到视频中的时空关系,从而提升在4D任务上的性能。这种方法旨在克服现有方法在非语义时空任务上的局限性。

技术框架:整体框架采用掩码自编码器(MAE)结构,输入是视频数据,部分视频帧或片段被随机掩盖。模型主体是一个Transformer视频编码器,用于学习视频表征。解码器用于重建被掩盖的视频片段。整个流程包括:视频数据输入、随机掩码、编码器提取特征、解码器重建、计算损失并更新模型参数。

关键创新:最重要的技术创新点在于将掩码自编码(MAE)方法扩展到大规模视频数据和Transformer视频模型上,并专注于非语义时空(4D)任务的优化。与现有方法相比,该方法能够更有效地利用大规模视频数据学习时空关系,从而在4D任务上取得显著的性能提升。

关键设计:关键设计包括:1) 使用大规模视频数据集进行训练;2) 采用Transformer作为视频编码器,以捕捉长程时空依赖关系;3) 使用高比例的掩码,迫使模型学习更鲁棒的表征;4) 针对不同的4D任务,设计合适的评估指标和下游任务微调策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过扩展模型规模到22B参数,并在大规模视频数据上进行训练,该方法在相机姿态估计、点和物体追踪以及深度估计等4D任务上取得了显著的性能提升。与现有方法相比,该方法在多个基准数据集上均取得了领先的结果,证明了扩展4D表征的有效性。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、视频监控、增强现实等领域。通过学习有效的4D表征,可以提升相机姿态估计的准确性,改进物体追踪的鲁棒性,并提高深度估计的精度,从而为相关应用提供更可靠的环境感知能力。未来,该方法有望进一步扩展到其他时空数据,如医学影像、气象数据等。

📄 摘要(原文)

Scaling has not yet been convincingly demonstrated for pure self-supervised learning from video. However, prior work has focused evaluations on semantic-related tasks $\unicode{x2013}$ action classification, ImageNet classification, etc. In this paper we focus on evaluating self-supervised learning on non-semantic vision tasks that are more spatial (3D) and temporal (+1D = 4D), such as camera pose estimation, point and object tracking, and depth estimation. We show that by learning from very large video datasets, masked auto-encoding (MAE) with transformer video models actually scales, consistently improving performance on these 4D tasks, as model size increases from 20M all the way to the largest by far reported self-supervised video model $\unicode{x2013}$ 22B parameters. Rigorous apples-to-apples comparison with many recent image and video models demonstrates the benefits of scaling 4D representations. Pretrained models are available at https://github.com/google-deepmind/representations4d .