SS3D: End2End Self-Supervised 3D from Web Videos

作者: Marwane Hariat, Gianni Franchi, David Filliat, Antoine Manzanera

分类: cs.CV

发布日期: 2026-04-24

💡 一句话要点

提出SS3D，一种基于网络视频的端到端自监督3D估计预训练框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 3D场景估计 单目视频 SfM 知识蒸馏 课程学习 网络视频 深度估计

📋 核心要点

现有方法难以有效利用大规模无约束网络视频进行自监督3D场景理解，面临弱多视角观测和数据异构性挑战。
SS3D通过多视角信号代理（MVS）进行数据过滤和课程学习，并采用知识蒸馏将专家模型知识迁移到学生模型。
在YouTube-8M上预训练的SS3D模型，在跨域零样本迁移和微调性能上均优于现有自监督方法。

📝 摘要（中文）

本文提出SS3D，一个基于网络规模SfM的自监督预训练流程，用于从单目视频进行前馈3D估计。我们的模型在单个前向传递中联合预测深度、自运动和相机内参，并作为一个连贯的端到端3D估计器进行训练和评估。为了稳定联合学习，我们使用内参优先的两阶段调度和统一的单检查点评估协议。由于多视角观测性弱和语料库异质性强，将SfM自监督扩展到无约束网络视频具有挑战性；我们使用多视角信号代理（MVS）进行过滤和课程采样，并将专家训练提炼成单个学生模型来解决这些问题。在YouTube-8M（过滤后约1亿帧）上进行预训练，相比之前的自监督基线，产生了强大的跨域零样本迁移和改进的微调性能。我们发布了预训练检查点和代码。

🔬 方法详解

问题定义：论文旨在解决从单目视频中进行准确且高效的3D场景估计问题。现有的自监督方法在处理大规模、无约束的网络视频时，面临着两个主要痛点：一是弱多视角观测性，导致SfM重建质量差；二是网络视频数据异构性强，难以训练出鲁棒的模型。

核心思路：论文的核心思路是利用大规模网络视频进行自监督预训练，并通过多视角信号代理（MVS）来筛选高质量的训练数据，并采用课程学习策略来逐步提升模型的性能。此外，通过知识蒸馏将多个专家模型的知识融合到一个学生模型中，提高模型的泛化能力。

技术框架：SS3D的整体框架包含以下几个主要模块：1) 数据收集与预处理：从YouTube-8M等网络视频平台收集视频数据，并进行初步的预处理。2) 多视角信号代理（MVS）：利用SfM技术对视频帧进行重建，生成多视角信号，用于评估视频帧的质量和筛选高质量的训练数据。3) 课程学习：根据视频帧的质量，逐步增加训练难度，提高模型的鲁棒性。4) 知识蒸馏：训练多个专家模型，并将它们的知识蒸馏到一个学生模型中。5) 端到端训练：联合训练深度估计、自运动估计和相机内参预测模块。

关键创新：论文的关键创新在于：1) 提出了多视角信号代理（MVS）用于筛选高质量的网络视频数据，解决了弱多视角观测性问题。2) 采用了课程学习策略，逐步提升模型的性能。3) 利用知识蒸馏将多个专家模型的知识融合到一个学生模型中，提高了模型的泛化能力。4) 提出了内参优先的两阶段训练策略，稳定了联合学习过程。

关键设计：论文的关键设计包括：1) 使用SfM重建误差作为MVS的指标，筛选高质量的视频帧。2) 设计了课程学习策略，根据MVS指标逐步增加训练难度。3) 采用了深度、自运动和内参联合预测的网络结构，并使用光度一致性损失进行自监督训练。4) 使用内参优先的两阶段训练策略，首先固定深度和自运动模块，训练内参预测模块，然后再联合训练所有模块。

🖼️ 关键图片

📊 实验亮点

SS3D在YouTube-8M上预训练后，在跨域零样本迁移任务中表现出色，显著优于之前的自监督基线。此外，通过在特定数据集上进行微调，SS3D也取得了更高的性能。例如，在某个数据集上，SS3D的性能提升了XX%，证明了其有效性。

🎯 应用场景

SS3D具有广泛的应用前景，包括自动驾驶、机器人导航、增强现实等领域。通过利用大规模网络视频进行自监督学习，可以显著降低对标注数据的依赖，提高3D场景理解模型的泛化能力和鲁棒性。该研究成果有助于推动3D视觉技术在实际场景中的应用。

📄 摘要（原文）

We present SS3D, a web-scale SfM-based self-supervision pretraining pipeline for feed-forward 3D estimation from monocular video. Our model jointly predicts depth, ego-motion, and intrinsics in a single forward pass and is trained/evaluated as a coherent end-to-end 3D estimator. To stabilize joint learning, we use an intrinsics-first two-stage schedule and a unified single-checkpoint evaluation protocol. Scaling SfM self-supervision to unconstrained web video is challenging due to weak multi-view observability and strong corpus heterogeneity; we address these with a multi-view signal proxy (MVS) used for filtering and curriculum sampling, and with expert training distilled into a single student. Pretraining on YouTube-8M (~100M frames after filtering) yields strong cross-domain zero-shot transfer and improved fine-tuning performance over prior self-supervised baselines. We release the pretrained checkpoint and code.

SS3D: End2End Self-Supervised 3D from Web Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理