Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting

作者: Xingyu Miao, Haoran Duan, Quanhao Qian, Jiuniu Wang, Yang Long, Ling Shao, Deli Zhao, Ran Xu, Gongjie Zhang

分类: cs.CV, cs.AI

发布日期: 2025-07-24

备注: ICCV 2025 (Highlight)

💡 一句话要点

提出一种可扩展的2D到3D数据提升流程，解决3D数据稀缺问题，促进空间智能发展。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 2D到3D转换 深度估计 相机标定 尺度标定 空间智能 3D数据集生成 单目视觉 数据增强

📋 核心要点

大规模3D数据集的稀缺性限制了空间智能的发展，现有3D数据获取成本高昂且标注困难。
提出一种2D到3D数据提升流程，通过深度估计、相机标定和尺度标定，从单视角图像生成高质量3D数据。
生成COCO-3D和Objects365-v2-3D数据集，实验证明生成数据能有效提升3D感知和MLLM推理任务性能。

📝 摘要（中文）

空间智能是人工智能领域一个新兴且具有变革性的前沿方向，但其发展受到大规模3D数据集稀缺的限制。与丰富的2D图像数据不同，获取3D数据通常需要专门的传感器和费力的人工标注。本文提出了一种可扩展的流程，通过集成深度估计、相机标定和尺度标定，将单视角图像转换为全面的、尺度和外观真实的3D表示，包括点云、相机姿态、深度图和伪RGBD数据。该方法弥合了海量图像数据和日益增长的空间场景理解需求之间的差距。通过从图像中自动生成真实的、尺度感知的3D数据，显著降低了数据收集成本，并为推进空间智能开辟了新的途径。我们发布了两个生成的空间数据集，即COCO-3D和Objects365-v2-3D，并通过大量实验证明，我们生成的数据可以有益于各种3D任务，从基础感知到基于MLLM的推理。这些结果验证了我们的流程是开发能够感知、理解和与物理环境交互的人工智能系统的有效解决方案。

🔬 方法详解

问题定义：现有空间智能研究面临大规模3D数据集匮乏的难题。传统3D数据获取方式依赖昂贵的传感器和耗时的人工标注，难以满足日益增长的空间场景理解需求。因此，如何低成本、高效地生成大规模、高质量的3D数据成为关键挑战。

核心思路：论文的核心思路是从易于获取的2D图像数据出发，通过算法自动生成对应的3D数据。通过深度估计恢复场景的几何信息，利用相机标定确定相机参数，并进行尺度标定以保证3D数据的真实比例。这种方法旨在弥合2D图像数据和3D数据之间的鸿沟，降低3D数据获取成本。

技术框架：该方法主要包含三个阶段：1) 深度估计：利用深度估计模型从单张2D图像中预测深度图，恢复场景的几何结构。2) 相机标定：估计相机的内外参数，包括相机位置、姿态和焦距等，为后续的3D重建提供准确的相机信息。3) 尺度标定：校正3D场景的尺度，确保生成的3D数据具有真实的物理尺寸。通过整合这三个阶段，可以从单张2D图像生成点云、相机姿态、深度图和伪RGBD等多种3D表示。

关键创新：该方法的核心创新在于提出了一种可扩展的2D到3D数据提升流程，能够自动地从单视角图像生成大规模、高质量的3D数据。与传统方法相比，该方法无需昂贵的传感器和人工标注，大大降低了3D数据获取的成本。此外，该方法生成的3D数据具有尺度感知能力，能够更好地服务于各种3D任务。

关键设计：深度估计模型选择方面，论文可能采用了先进的单目深度估计网络，例如基于Transformer的结构，并针对特定数据集进行了微调。相机标定可能采用了基于优化的方法，通过最小化重投影误差来估计相机参数。尺度标定可能利用了场景中已知尺寸的物体作为参考，或者采用了基于先验知识的统计方法。损失函数的设计可能包括深度预测的损失、相机参数估计的损失以及尺度一致性的损失。

🖼️ 关键图片

📊 实验亮点

论文生成了COCO-3D和Objects365-v2-3D两个大规模3D数据集，并通过实验验证了生成数据的有效性。实验结果表明，使用生成的数据可以显著提升3D目标检测、场景分割等任务的性能。此外，生成的数据还被用于训练MLLM，提升了其在3D场景理解和推理方面的能力。具体性能提升数据未知。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、增强现实、虚拟现实、三维重建等领域。通过低成本生成大规模3D数据，可以有效提升相关人工智能系统的感知、理解和交互能力，加速空间智能的发展。未来，该技术有望应用于城市规划、文物保护、游戏开发等更多领域。

📄 摘要（原文）

Spatial intelligence is emerging as a transformative frontier in AI, yet it remains constrained by the scarcity of large-scale 3D datasets. Unlike the abundant 2D imagery, acquiring 3D data typically requires specialized sensors and laborious annotation. In this work, we present a scalable pipeline that converts single-view images into comprehensive, scale- and appearance-realistic 3D representations - including point clouds, camera poses, depth maps, and pseudo-RGBD - via integrated depth estimation, camera calibration, and scale calibration. Our method bridges the gap between the vast repository of imagery and the increasing demand for spatial scene understanding. By automatically generating authentic, scale-aware 3D data from images, we significantly reduce data collection costs and open new avenues for advancing spatial intelligence. We release two generated spatial datasets, i.e., COCO-3D and Objects365-v2-3D, and demonstrate through extensive experiments that our generated data can benefit various 3D tasks, ranging from fundamental perception to MLLM-based reasoning. These results validate our pipeline as an effective solution for developing AI systems capable of perceiving, understanding, and interacting with physical environments.

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理