Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video
作者: Zihui Gao, Ke Liu, Donny Y. Chen, Duochao Shi, Guosheng Lin, Hao Chen, Chunhua Shen
分类: cs.CV, cs.AI
发布日期: 2026-02-08
💡 一句话要点
SAGE:利用互联网视频弱监督,实现3D几何基础模型的可扩展自适应
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D几何基础模型 弱监督学习 互联网视频 自适应 零样本泛化
📋 核心要点
- 现有3D几何基础模型受限于缺乏大规模、多样化的3D标注数据,阻碍了其发展。
- SAGE框架利用互联网视频作为弱监督信号,通过分层挖掘和混合监督策略,实现模型自适应。
- 实验表明,SAGE显著提升了模型在未见过的场景中的零样本泛化能力,Chamfer距离降低了20-42%。
📝 摘要(中文)
几何基础模型在3D重建领域展现出潜力,但其发展受到大规模、多样化3D标注数据稀缺的严重限制。互联网视频提供了几乎无限的原始数据,但由于缺乏真值几何信息和存在观测噪声,利用它们作为几何学习的扩展来源具有挑战性。为了解决这个问题,我们提出了SAGE,一个从原始视频流中可扩展地自适应几何基础模型的框架。SAGE利用分层挖掘流程将视频转换为训练轨迹和混合监督:(1)信息丰富的训练轨迹选择;(2)通过SfM点云进行稀疏几何锚定,以实现全局结构引导;(3)通过3D高斯渲染进行密集可微一致性,以实现多视角约束。为了防止灾难性遗忘,我们引入了一种使用锚定数据的正则化策略。大量实验表明,与最先进的基线相比,SAGE显著提高了零样本泛化能力,在未见过的基准测试(7Scenes、TUM-RGBD、Matterport3D)上将Chamfer距离降低了20-42%。据我们所知,SAGE率先通过互联网视频自适应几何基础模型,为通用3D学习建立了一个可扩展的范例。
🔬 方法详解
问题定义:现有3D几何基础模型训练依赖于大规模、高质量的3D标注数据,而这些数据的获取成本高昂且难以扩展。互联网视频虽然数据量巨大,但缺乏精确的3D几何真值,且包含大量噪声,直接用于训练会导致模型性能下降。因此,如何有效地利用互联网视频中的弱监督信息来提升3D几何基础模型的泛化能力是一个关键问题。
核心思路:SAGE的核心思路是通过一种分层挖掘和混合监督策略,将互联网视频转化为可用于训练的轨迹和信号。首先,选择信息量大的训练轨迹,避免无效或噪声过大的数据。然后,利用SfM点云提供稀疏的几何锚定,引导全局结构的学习。最后,通过3D高斯渲染实现密集的多视角一致性约束,增强局部细节的学习。同时,采用正则化策略防止灾难性遗忘。
技术框架:SAGE框架包含以下几个主要模块:1) 训练轨迹选择:从大量视频中筛选出包含丰富几何信息的片段。2) 稀疏几何锚定:利用SfM技术从视频中重建稀疏点云,作为全局结构的先验信息。3) 密集可微一致性:通过3D高斯渲染,将不同视角的图像渲染到3D空间,并施加一致性约束。4) 正则化:使用锚定数据,防止模型在适应新数据时忘记已学习的知识。
关键创新:SAGE的关键创新在于它提出了一种可扩展的、基于互联网视频弱监督的3D几何基础模型自适应框架。与以往依赖于精确3D标注的方法不同,SAGE能够利用海量的无标注视频数据进行训练,从而显著提升模型的泛化能力。此外,SAGE提出的分层挖掘和混合监督策略,能够有效地从噪声数据中提取有用的几何信息。
关键设计:在训练轨迹选择方面,论文可能使用了基于信息熵或重建质量的指标来筛选视频片段。在稀疏几何锚定方面,SfM点云的密度和精度会影响最终的性能。在密集可微一致性方面,3D高斯渲染器的参数设置(如高斯核的大小、渲染分辨率等)以及一致性损失函数的选择(如L1损失、L2损失等)都会影响训练效果。正则化策略可能采用了L2正则化或知识蒸馏等方法,以防止灾难性遗忘。
📊 实验亮点
实验结果表明,SAGE在7Scenes、TUM-RGBD和Matterport3D等未见过的基准测试中,相比于最先进的基线方法,Chamfer距离分别降低了20-42%。这表明SAGE能够有效地利用互联网视频中的弱监督信息,提升3D几何基础模型的零样本泛化能力。此外,消融实验也验证了各个模块的有效性。
🎯 应用场景
SAGE框架具有广泛的应用前景,例如:自动驾驶、机器人导航、增强现实、虚拟现实、3D内容生成等。通过利用互联网视频数据,SAGE能够降低3D模型训练的成本,并提升模型的泛化能力,从而加速这些领域的发展。未来,SAGE可以进一步扩展到其他模态的数据,例如文本、音频等,以实现更强大的3D场景理解和生成能力。
📄 摘要(原文)
Geometric foundation models show promise in 3D reconstruction, yet their progress is severely constrained by the scarcity of diverse, large-scale 3D annotations. While Internet videos offer virtually unlimited raw data, utilizing them as a scaling source for geometric learning is challenging due to the absence of ground-truth geometry and the presence of observational noise. To address this, we propose SAGE, a framework for Scalable Adaptation of GEometric foundation models from raw video streams. SAGE leverages a hierarchical mining pipeline to transform videos into training trajectories and hybrid supervision: (1) Informative training trajectory selection; (2) Sparse Geometric Anchoring via SfM point clouds for global structural guidance; and (3) Dense Differentiable Consistency via 3D Gaussian rendering for multi-view constraints. To prevent catastrophic forgetting, we introduce a regularization strategy using anchor data. Extensive experiments show that SAGE significantly enhances zero-shot generalization, reducing Chamfer Distance by 20-42% on unseen benchmarks (7Scenes, TUM-RGBD, Matterport3D) compared to state-of-the-art baselines. To our knowledge, SAGE pioneers the adaptation of geometric foundation models via Internet video, establishing a scalable paradigm for general-purpose 3D learning.