Gaussian Masked Autoencoders

📄 arXiv: 2501.03229v1 📥 PDF

作者: Jathushan Rajasegaran, Xinlei Chen, Rulilong Li, Christoph Feichtenhofer, Jitendra Malik, Shiry Ginosar

分类: cs.CV, cs.AI

发布日期: 2025-01-06

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出高斯掩码自编码器(GMAE),联合学习语义抽象和空间理解,实现零样本空间理解能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 掩码自编码器 高斯溅射 自监督学习 空间理解 三维重建

📋 核心要点

  1. 现有MAE等自监督学习方法缺乏显式的空间感知能力,限制了其在空间理解任务中的应用。
  2. GMAE通过引入3D高斯表示作为中间层,并结合溅射渲染,实现了语义抽象和空间理解的联合学习。
  3. 实验表明,GMAE在保持语义表示质量的同时,具备了零样本空间理解能力,如前景分割和边缘检测。

📝 摘要(中文)

本文探索了结合高斯溅射的掩码自编码器(MAE)。虽然像MAE这样的重建式自监督学习框架能够学习良好的语义抽象,但它并没有针对显式的空间感知进行训练。我们提出的高斯掩码自编码器(GMAE)旨在联合学习语义抽象和空间理解。与MAE类似,它在像素空间中端到端地重建图像,但除此之外,它还引入了一个中间的、基于3D高斯的表示,并通过溅射渲染图像。我们证明了GMAE能够实现各种空间理解的零样本学习能力(例如,前景-背景分割、图像分层、边缘检测等),同时保留了来自MAE的自监督表示的高级语义质量。据我们所知,我们是第一个在图像表示学习框架中使用高斯基元,而不仅仅是基于优化的单场景重建。我们相信GMAE将激发该方向的进一步研究,并有助于开发用于建模高保真视觉数据的下一代技术。

🔬 方法详解

问题定义:现有自监督学习方法,如MAE,虽然在语义表征学习上表现出色,但缺乏对图像空间信息的有效建模。这限制了它们在需要空间理解的任务中的应用,例如场景解析、三维重建等。现有方法通常需要额外的监督信息或复杂的后处理才能获得较好的空间理解效果。

核心思路:GMAE的核心思路是利用3D高斯基元作为图像的中间表示,从而显式地建模图像的空间结构。通过将图像编码为一组3D高斯参数,并使用溅射渲染技术将这些高斯基元投影回像素空间,GMAE能够同时学习图像的语义信息和空间信息。这种设计使得GMAE能够在重建图像的同时,学习到图像的3D结构和空间关系。

技术框架:GMAE的整体框架类似于MAE,包括编码器、解码器和一个掩码机制。首先,对输入图像进行随机掩码。然后,编码器将可见的图像块编码成潜在表示。与MAE不同的是,GMAE在编码器和解码器之间引入了一个3D高斯表示层。编码器的输出被用于预测3D高斯参数(例如,位置、协方差、颜色)。接下来,使用溅射渲染技术将这些3D高斯基元投影回像素空间,生成重建图像。解码器的作用是将高斯表示解码为像素空间中的图像。

关键创新:GMAE的关键创新在于将3D高斯基元引入到自监督图像表示学习框架中。这是首次在图像表示学习中利用高斯基元进行端到端的学习,而不仅仅是用于单场景的优化重建。通过这种方式,GMAE能够显式地建模图像的空间结构,并学习到具有空间感知能力的图像表示。

关键设计:GMAE的关键设计包括:1) 使用可微分的溅射渲染技术,使得整个网络可以进行端到端的训练。2) 设计合适的损失函数,鼓励GMAE学习到准确的3D高斯参数和高质量的重建图像。损失函数通常包括重建损失(例如,L1损失或L2损失)和正则化项,以防止过拟合。3) 选择合适的网络结构,例如使用Transformer作为编码器和解码器,以捕捉图像中的长程依赖关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GMAE在多个零样本空间理解任务上取得了显著成果。例如,在前景-背景分割任务中,GMAE能够无需任何训练数据,直接分割出图像中的前景物体。在边缘检测任务中,GMAE也能够生成清晰的边缘图。这些结果表明,GMAE成功地学习到了图像的空间结构,并具备了强大的空间理解能力。此外,GMAE在图像重建质量方面也与MAE相当,表明其在保持语义表示质量的同时,提升了空间理解能力。

🎯 应用场景

GMAE具有广泛的应用前景,例如三维重建、场景理解、机器人导航、增强现实等。通过学习具有空间感知能力的图像表示,GMAE可以帮助机器人更好地理解周围环境,从而实现更智能的导航和交互。此外,GMAE还可以用于生成逼真的三维模型,为虚拟现实和游戏开发提供支持。GMAE的未来影响在于推动下一代高保真视觉数据建模技术的发展。

📄 摘要(原文)

This paper explores Masked Autoencoders (MAE) with Gaussian Splatting. While reconstructive self-supervised learning frameworks such as MAE learns good semantic abstractions, it is not trained for explicit spatial awareness. Our approach, named Gaussian Masked Autoencoder, or GMAE, aims to learn semantic abstractions and spatial understanding jointly. Like MAE, it reconstructs the image end-to-end in the pixel space, but beyond MAE, it also introduces an intermediate, 3D Gaussian-based representation and renders images via splatting. We show that GMAE can enable various zero-shot learning capabilities of spatial understanding (e.g., figure-ground segmentation, image layering, edge detection, etc.) while preserving the high-level semantics of self-supervised representation quality from MAE. To our knowledge, we are the first to employ Gaussian primitives in an image representation learning framework beyond optimization-based single-scene reconstructions. We believe GMAE will inspire further research in this direction and contribute to developing next-generation techniques for modeling high-fidelity visual data. More details at https://brjathu.github.io/gmae