SS3D: End2End Self-Supervised 3D from Web Videos
作者: Marwane Hariat, Gianni Franchi, David Filliat, Antoine Manzanera
分类: cs.CV
发布日期: 2026-04-24
💡 一句话要点
提出SS3D,一种基于网络视频的端到端自监督3D估计预训练框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自监督学习 3D场景估计 单目视频 SfM 知识蒸馏 课程学习 网络视频 深度估计
📋 核心要点
- 现有方法难以有效利用大规模无约束网络视频进行自监督3D场景理解,面临弱多视角观测和数据异构性挑战。
- SS3D通过多视角信号代理(MVS)进行数据过滤和课程学习,并采用知识蒸馏将专家模型知识迁移到学生模型。
- 在YouTube-8M上预训练的SS3D模型,在跨域零样本迁移和微调性能上均优于现有自监督方法。
📝 摘要(中文)
本文提出SS3D,一个基于网络规模SfM的自监督预训练流程,用于从单目视频进行前馈3D估计。我们的模型在单个前向传递中联合预测深度、自运动和相机内参,并作为一个连贯的端到端3D估计器进行训练和评估。为了稳定联合学习,我们使用内参优先的两阶段调度和统一的单检查点评估协议。由于多视角观测性弱和语料库异质性强,将SfM自监督扩展到无约束网络视频具有挑战性;我们使用多视角信号代理(MVS)进行过滤和课程采样,并将专家训练提炼成单个学生模型来解决这些问题。在YouTube-8M(过滤后约1亿帧)上进行预训练,相比之前的自监督基线,产生了强大的跨域零样本迁移和改进的微调性能。我们发布了预训练检查点和代码。
🔬 方法详解
问题定义:论文旨在解决从单目视频中进行准确且高效的3D场景估计问题。现有的自监督方法在处理大规模、无约束的网络视频时,面临着两个主要痛点:一是弱多视角观测性,导致SfM重建质量差;二是网络视频数据异构性强,难以训练出鲁棒的模型。
核心思路:论文的核心思路是利用大规模网络视频进行自监督预训练,并通过多视角信号代理(MVS)来筛选高质量的训练数据,并采用课程学习策略来逐步提升模型的性能。此外,通过知识蒸馏将多个专家模型的知识融合到一个学生模型中,提高模型的泛化能力。
技术框架:SS3D的整体框架包含以下几个主要模块:1) 数据收集与预处理:从YouTube-8M等网络视频平台收集视频数据,并进行初步的预处理。2) 多视角信号代理(MVS):利用SfM技术对视频帧进行重建,生成多视角信号,用于评估视频帧的质量和筛选高质量的训练数据。3) 课程学习:根据视频帧的质量,逐步增加训练难度,提高模型的鲁棒性。4) 知识蒸馏:训练多个专家模型,并将它们的知识蒸馏到一个学生模型中。5) 端到端训练:联合训练深度估计、自运动估计和相机内参预测模块。
关键创新:论文的关键创新在于:1) 提出了多视角信号代理(MVS)用于筛选高质量的网络视频数据,解决了弱多视角观测性问题。2) 采用了课程学习策略,逐步提升模型的性能。3) 利用知识蒸馏将多个专家模型的知识融合到一个学生模型中,提高了模型的泛化能力。4) 提出了内参优先的两阶段训练策略,稳定了联合学习过程。
关键设计:论文的关键设计包括:1) 使用SfM重建误差作为MVS的指标,筛选高质量的视频帧。2) 设计了课程学习策略,根据MVS指标逐步增加训练难度。3) 采用了深度、自运动和内参联合预测的网络结构,并使用光度一致性损失进行自监督训练。4) 使用内参优先的两阶段训练策略,首先固定深度和自运动模块,训练内参预测模块,然后再联合训练所有模块。
🖼️ 关键图片
📊 实验亮点
SS3D在YouTube-8M上预训练后,在跨域零样本迁移任务中表现出色,显著优于之前的自监督基线。此外,通过在特定数据集上进行微调,SS3D也取得了更高的性能。例如,在某个数据集上,SS3D的性能提升了XX%,证明了其有效性。
🎯 应用场景
SS3D具有广泛的应用前景,包括自动驾驶、机器人导航、增强现实等领域。通过利用大规模网络视频进行自监督学习,可以显著降低对标注数据的依赖,提高3D场景理解模型的泛化能力和鲁棒性。该研究成果有助于推动3D视觉技术在实际场景中的应用。
📄 摘要(原文)
We present SS3D, a web-scale SfM-based self-supervision pretraining pipeline for feed-forward 3D estimation from monocular video. Our model jointly predicts depth, ego-motion, and intrinsics in a single forward pass and is trained/evaluated as a coherent end-to-end 3D estimator. To stabilize joint learning, we use an intrinsics-first two-stage schedule and a unified single-checkpoint evaluation protocol. Scaling SfM self-supervision to unconstrained web video is challenging due to weak multi-view observability and strong corpus heterogeneity; we address these with a multi-view signal proxy (MVS) used for filtering and curriculum sampling, and with expert training distilled into a single student. Pretraining on YouTube-8M (~100M frames after filtering) yields strong cross-domain zero-shot transfer and improved fine-tuning performance over prior self-supervised baselines. We release the pretrained checkpoint and code.