Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video

作者: Zihui Gao, Ke Liu, Donny Y. Chen, Duochao Shi, Guosheng Lin, Hao Chen, Chunhua Shen

分类: cs.CV, cs.AI

发布日期: 2026-02-08

💡 一句话要点

SAGE：利用互联网视频弱监督，实现3D几何基础模型的可扩展自适应

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D几何基础模型 弱监督学习 互联网视频 自适应 零样本泛化

📋 核心要点

现有3D几何基础模型受限于缺乏大规模、多样化的3D标注数据，阻碍了其发展。
SAGE框架利用互联网视频作为弱监督信号，通过分层挖掘和混合监督策略，实现模型自适应。
实验表明，SAGE显著提升了模型在未见过的场景中的零样本泛化能力，Chamfer距离降低了20-42%。

📝 摘要（中文）

几何基础模型在3D重建领域展现出潜力，但其发展受到大规模、多样化3D标注数据稀缺的严重限制。互联网视频提供了几乎无限的原始数据，但由于缺乏真值几何信息和存在观测噪声，利用它们作为几何学习的扩展来源具有挑战性。为了解决这个问题，我们提出了SAGE，一个从原始视频流中可扩展地自适应几何基础模型的框架。SAGE利用分层挖掘流程将视频转换为训练轨迹和混合监督：（1）信息丰富的训练轨迹选择；（2）通过SfM点云进行稀疏几何锚定，以实现全局结构引导；（3）通过3D高斯渲染进行密集可微一致性，以实现多视角约束。为了防止灾难性遗忘，我们引入了一种使用锚定数据的正则化策略。大量实验表明，与最先进的基线相比，SAGE显著提高了零样本泛化能力，在未见过的基准测试（7Scenes、TUM-RGBD、Matterport3D）上将Chamfer距离降低了20-42%。据我们所知，SAGE率先通过互联网视频自适应几何基础模型，为通用3D学习建立了一个可扩展的范例。

🔬 方法详解

问题定义：现有3D几何基础模型训练依赖于大规模、高质量的3D标注数据，而这些数据的获取成本高昂且难以扩展。互联网视频虽然数据量巨大，但缺乏精确的3D几何真值，且包含大量噪声，直接用于训练会导致模型性能下降。因此，如何有效地利用互联网视频中的弱监督信息来提升3D几何基础模型的泛化能力是一个关键问题。

核心思路：SAGE的核心思路是通过一种分层挖掘和混合监督策略，将互联网视频转化为可用于训练的轨迹和信号。首先，选择信息量大的训练轨迹，避免无效或噪声过大的数据。然后，利用SfM点云提供稀疏的几何锚定，引导全局结构的学习。最后，通过3D高斯渲染实现密集的多视角一致性约束，增强局部细节的学习。同时，采用正则化策略防止灾难性遗忘。

技术框架：SAGE框架包含以下几个主要模块：1) 训练轨迹选择：从大量视频中筛选出包含丰富几何信息的片段。2) 稀疏几何锚定：利用SfM技术从视频中重建稀疏点云，作为全局结构的先验信息。3) 密集可微一致性：通过3D高斯渲染，将不同视角的图像渲染到3D空间，并施加一致性约束。4) 正则化：使用锚定数据，防止模型在适应新数据时忘记已学习的知识。

关键创新：SAGE的关键创新在于它提出了一种可扩展的、基于互联网视频弱监督的3D几何基础模型自适应框架。与以往依赖于精确3D标注的方法不同，SAGE能够利用海量的无标注视频数据进行训练，从而显著提升模型的泛化能力。此外，SAGE提出的分层挖掘和混合监督策略，能够有效地从噪声数据中提取有用的几何信息。

关键设计：在训练轨迹选择方面，论文可能使用了基于信息熵或重建质量的指标来筛选视频片段。在稀疏几何锚定方面，SfM点云的密度和精度会影响最终的性能。在密集可微一致性方面，3D高斯渲染器的参数设置（如高斯核的大小、渲染分辨率等）以及一致性损失函数的选择（如L1损失、L2损失等）都会影响训练效果。正则化策略可能采用了L2正则化或知识蒸馏等方法，以防止灾难性遗忘。

📊 实验亮点

实验结果表明，SAGE在7Scenes、TUM-RGBD和Matterport3D等未见过的基准测试中，相比于最先进的基线方法，Chamfer距离分别降低了20-42%。这表明SAGE能够有效地利用互联网视频中的弱监督信息，提升3D几何基础模型的零样本泛化能力。此外，消融实验也验证了各个模块的有效性。

🎯 应用场景

SAGE框架具有广泛的应用前景，例如：自动驾驶、机器人导航、增强现实、虚拟现实、3D内容生成等。通过利用互联网视频数据，SAGE能够降低3D模型训练的成本，并提升模型的泛化能力，从而加速这些领域的发展。未来，SAGE可以进一步扩展到其他模态的数据，例如文本、音频等，以实现更强大的3D场景理解和生成能力。

📄 摘要（原文）

Geometric foundation models show promise in 3D reconstruction, yet their progress is severely constrained by the scarcity of diverse, large-scale 3D annotations. While Internet videos offer virtually unlimited raw data, utilizing them as a scaling source for geometric learning is challenging due to the absence of ground-truth geometry and the presence of observational noise. To address this, we propose SAGE, a framework for Scalable Adaptation of GEometric foundation models from raw video streams. SAGE leverages a hierarchical mining pipeline to transform videos into training trajectories and hybrid supervision: (1) Informative training trajectory selection; (2) Sparse Geometric Anchoring via SfM point clouds for global structural guidance; and (3) Dense Differentiable Consistency via 3D Gaussian rendering for multi-view constraints. To prevent catastrophic forgetting, we introduce a regularization strategy using anchor data. Extensive experiments show that SAGE significantly enhances zero-shot generalization, reducing Chamfer Distance by 20-42% on unseen benchmarks (7Scenes, TUM-RGBD, Matterport3D) compared to state-of-the-art baselines. To our knowledge, SAGE pioneers the adaptation of geometric foundation models via Internet video, establishing a scalable paradigm for general-purpose 3D learning.

Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理