E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training

作者: Qitao Zhao, Hao Tan, Qianqian Wang, Sai Bi, Kai Zhang, Kalyan Sunkavalli, Shubham Tulsiani, Hanwen Jiang

分类: cs.CV

发布日期: 2025-12-11

备注: Project website: https://qitaozhao.github.io/E-RayZer

💡 一句话要点

E-RayZer：提出自监督3D重建框架，作为空间视觉预训练模型。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 3D重建 视觉预训练 几何约束 多视图图像

📋 核心要点

现有自监督方法在多视图图像中学习3D感知表征方面探索不足，容易陷入捷径。
E-RayZer通过显式几何进行自监督3D重建，直接在3D空间操作，避免了捷径。
引入细粒度学习课程，无监督地组织训练样本，协调异构数据，提升收敛性和可扩展性。

📝 摘要（中文）

本文提出E-RayZer，一个自监督的大型3D视觉模型，直接从无标签图像中学习具有3D感知能力的表征。与以往通过潜在空间视角合成间接推断3D的自监督方法（如RayZer）不同，E-RayZer直接在3D空间中操作，通过显式几何进行自监督3D重建。这种方法消除了捷径解决方案，并产生了具有几何基础的表征。为了确保收敛性和可扩展性，我们引入了一种新颖的细粒度学习课程，以完全无监督的方式组织从易到难的样本训练，并协调异构数据源。实验表明，E-RayZer在姿态估计方面显著优于RayZer，在重建方面达到甚至超过了完全监督的模型（如VGGT）。此外，其学习到的表征在迁移到3D下游任务时，优于领先的视觉预训练模型（如DINOv3、CroCo v2、VideoMAE V2和RayZer），从而将E-RayZer确立为3D感知视觉预训练的新范例。

🔬 方法详解

问题定义：现有自监督方法，如RayZer，通过潜在空间视角合成间接推断3D，容易学习到与几何无关的捷径特征，导致泛化能力不足。缺乏直接在3D空间进行操作的自监督预训练方法。

核心思路：E-RayZer的核心思路是直接在3D空间中进行自监督重建，利用显式几何信息作为约束，避免模型学习到捷径特征。通过这种方式，模型能够学习到更具有几何意义和泛化能力的3D表征。

技术框架：E-RayZer的整体框架包含以下几个主要模块：1) 多视图图像输入；2) 3D场景重建模块，该模块直接在3D空间中进行操作，利用显式几何信息进行自监督重建；3) 表征学习模块，负责从重建的3D场景中学习3D-aware的表征；4) 细粒度学习课程模块，用于组织训练样本，协调异构数据源。

关键创新：E-RayZer的关键创新在于直接在3D空间中进行自监督重建，并引入了细粒度学习课程。与RayZer等方法相比，E-RayZer避免了通过潜在空间进行间接推断，而是直接利用显式几何信息进行约束，从而学习到更具有几何意义的3D表征。细粒度学习课程则保证了模型在训练过程中的收敛性和可扩展性。

关键设计：E-RayZer的关键设计包括：1) 3D场景重建模块的具体实现方式，例如使用体素网格或神经辐射场等；2) 细粒度学习课程的具体策略，例如如何根据样本的难度进行排序，以及如何协调不同数据源之间的差异；3) 损失函数的设计，例如使用重建误差、几何一致性损失等来约束模型的学习。

🖼️ 关键图片

📊 实验亮点

E-RayZer在姿态估计方面显著优于RayZer，在重建方面达到甚至超过了完全监督的模型（如VGGT）。在迁移到3D下游任务时，E-RayZer学习到的表征优于领先的视觉预训练模型（如DINOv3、CroCo v2、VideoMAE V2和RayZer）。这些结果表明E-RayZer在3D感知表征学习方面具有显著优势。

🎯 应用场景

E-RayZer的潜在应用领域包括机器人导航、自动驾驶、三维场景理解、虚拟现实/增强现实等。通过学习具有几何意义的3D表征，E-RayZer可以提升这些应用在复杂环境中的感知和决策能力。未来，E-RayZer有望成为3D视觉领域的基础模型，推动相关技术的发展。

📄 摘要（原文）

Self-supervised pre-training has revolutionized foundation models for languages, individual 2D images and videos, but remains largely unexplored for learning 3D-aware representations from multi-view images. In this paper, we present E-RayZer, a self-supervised large 3D Vision model that learns truly 3D-aware representations directly from unlabeled images. Unlike prior self-supervised methods such as RayZer that infer 3D indirectly through latent-space view synthesis, E-RayZer operates directly in 3D space, performing self-supervised 3D reconstruction with Explicit geometry. This formulation eliminates shortcut solutions and yields representations that are geometrically grounded. To ensure convergence and scalability, we introduce a novel fine-grained learning curriculum that organizes training from easy to hard samples and harmonizes heterogeneous data sources in an entirely unsupervised manner. Experiments demonstrate that E-RayZer significantly outperforms RayZer on pose estimation, matches or sometimes surpasses fully supervised reconstruction models such as VGGT. Furthermore, its learned representations outperform leading visual pre-training models (e.g., DINOv3, CroCo v2, VideoMAE V2, and RayZer) when transferring to 3D downstream tasks, establishing E-RayZer as a new paradigm for 3D-aware visual pre-training.

E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理