SAM 3D: 3Dfy Anything in Images

📄 arXiv: 2511.16624v1 📥 PDF

作者: SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik

分类: cs.CV, cs.AI

发布日期: 2025-11-20

备注: Website: https://ai.meta.com/sam3d/


💡 一句话要点

SAM 3D:提出一种从单张图像生成具有视觉基础的3D物体重建的生成模型。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D重建 生成模型 视觉基础 数据驱动 多阶段训练

📋 核心要点

  1. 现有3D重建方法在处理自然图像时,受限于遮挡、场景复杂度和缺乏上下文信息。
  2. SAM 3D通过人工和模型协同标注,创建大规模视觉基础的3D重建数据集,克服数据瓶颈。
  3. 该方法采用多阶段训练框架,结合合成数据预训练和真实数据对齐,显著提升了重建效果。

📝 摘要(中文)

我们提出了SAM 3D,一个用于视觉基础的3D物体重建的生成模型,它可以从单张图像预测几何形状、纹理和布局。SAM 3D在自然图像中表现出色,在自然图像中,遮挡和场景杂乱很常见,并且来自上下文的视觉识别线索起着更大的作用。我们通过人工和模型在环的流程来实现这一点,该流程用于注释物体形状、纹理和姿势,从而以前所未有的规模提供视觉基础的3D重建数据。我们通过一个现代的、多阶段的训练框架,将合成预训练与真实世界对齐相结合,从这些数据中学习,打破了3D“数据壁垒”。与最近的工作相比,我们获得了显著的收益,在真实世界物体和场景的人工偏好测试中,至少有5:1的胜率。我们将发布我们的代码和模型权重、在线演示以及一个新的具有挑战性的野外3D物体重建基准。

🔬 方法详解

问题定义:现有3D物体重建方法在处理真实场景图像时,面临着数据稀缺、遮挡严重、场景复杂等问题,导致重建精度和泛化能力不足。尤其是在自然图像中,物体间的遮挡和场景的杂乱使得视觉识别变得更加困难,现有方法难以有效利用上下文信息进行3D重建。

核心思路:SAM 3D的核心思路是利用大规模的、具有视觉基础的3D重建数据来训练一个生成模型,从而克服数据瓶颈。通过人工和模型在环的标注流程,构建高质量的3D重建数据集,并采用多阶段训练策略,将合成数据和真实数据相结合,提升模型的泛化能力和重建精度。

技术框架:SAM 3D采用多阶段训练框架,主要包括以下几个阶段:1) 数据收集与标注:通过人工和模型在环的流程,对物体形状、纹理和姿势进行标注,构建大规模的3D重建数据集。2) 合成数据预训练:利用合成数据对模型进行预训练,使其具备初步的3D重建能力。3) 真实数据对齐:利用真实数据对模型进行微调,使其适应真实场景的复杂性和多样性。4) 生成模型训练:训练一个生成模型,使其能够从单张图像预测物体的几何形状、纹理和布局。

关键创新:SAM 3D的关键创新在于其数据驱动的方法和多阶段训练框架。通过构建大规模的、具有视觉基础的3D重建数据集,打破了3D重建的“数据壁垒”。同时,采用多阶段训练策略,将合成数据和真实数据相结合,有效提升了模型的泛化能力和重建精度。

关键设计:具体的技术细节包括:1) 使用特定的标注工具和流程,确保标注数据的质量和一致性。2) 设计合适的网络结构,使其能够有效地提取图像特征并预测3D信息。3) 采用合适的损失函数,例如几何损失、纹理损失和布局损失,来约束模型的输出。4) 通过数据增强等技术,进一步提升模型的鲁棒性。

🖼️ 关键图片

img_0

📊 实验亮点

SAM 3D在真实世界物体和场景的人工偏好测试中,相对于现有方法获得了至少5:1的胜率,表明其重建效果显著优于现有技术。该论文还将发布代码、模型权重和在线演示,并提供一个新的具有挑战性的野外3D物体重建基准。

🎯 应用场景

SAM 3D在机器人导航、自动驾驶、增强现实、虚拟现实等领域具有广泛的应用前景。它可以用于构建更加逼真的3D场景,提升用户体验。此外,该技术还可以应用于物体识别、场景理解等任务,为人工智能的发展提供新的动力。

📄 摘要(原文)

We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.