CoL3D: Collaborative Learning of Single-view Depth and Camera Intrinsics for Metric 3D Shape Recovery

📄 arXiv: 2502.08902v1 📥 PDF

作者: Chenghao Zhang, Lubin Fan, Shen Cao, Bojian Wu, Jieping Ye

分类: cs.CV

发布日期: 2025-02-13

备注: Accepted at ICRA 2025


💡 一句话要点

CoL3D:单视图深度与相机内参协同学习,实现度量3D形状恢复

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单视图深度估计 相机内参估计 度量3D形状恢复 协同学习 机器人视觉

📋 核心要点

  1. 单目深度估计是机器人和具身智能的关键,但缺乏相机内参限制了度量3D形状的恢复。
  2. CoL3D通过协同学习深度和相机内参,利用深度作为3D先验约束,实现更精确的度量3D重建。
  3. CoL3D在多个数据集上取得了优异的深度估计和相机校准性能,显著提升了3D形状质量。

📝 摘要(中文)

本文提出了一种名为CoL3D的协同学习框架,用于从单张图像中联合估计深度和相机内参,从而恢复度量3D形状。该方法基于深度作为相机内参估计的3D先验约束的理论,并揭示了两者之间的互惠关系。CoL3D采用统一的网络结构,并在深度、相机内参和3D点云三个层面进行协同优化。针对相机内参,设计了一种规范入射场机制作为先验,使模型能够学习残差入射场以增强校准。此外,在点云空间中引入形状相似性度量损失,从而提高3D形状的质量,这对于机器人应用至关重要。在室内和室外基准数据集上的实验结果表明,CoL3D在深度估计和相机校准方面均表现出色,从而显著提高了机器人感知能力的3D形状质量。

🔬 方法详解

问题定义:现有方法在单目3D形状恢复中,通常依赖于单目深度估计,但如果没有准确的相机内参,就无法从深度信息中恢复出度量尺度的3D形状。因此,如何在缺乏相机内参的情况下,从单张图像中恢复出准确的度量3D形状是一个关键问题。现有方法通常需要额外的相机标定步骤,或者假设相机内参已知,这限制了其在实际机器人应用中的灵活性。

核心思路:CoL3D的核心思路是联合学习单视图深度和相机内参,利用深度信息作为相机内参估计的3D先验约束,反过来,更准确的相机内参也有助于提升深度估计的精度。这种协同学习的方式能够克服单视图3D形状恢复中缺乏度量尺度的挑战。

技术框架:CoL3D采用一个统一的网络结构,该网络同时预测深度图和相机内参。整个框架包含三个主要的优化层面:深度层面、相机内参层面和3D点云层面。在深度层面,使用标准的深度估计损失函数。在相机内参层面,引入了规范入射场机制。在3D点云层面,通过形状相似性度量损失来约束重建的3D形状。

关键创新:CoL3D的关键创新在于提出了一个协同学习框架,将深度估计和相机内参估计结合起来,相互促进。此外,规范入射场机制作为相机内参的先验,能够有效地引导模型学习残差入射场,从而提升相机校准的精度。在点云空间中引入形状相似性度量损失,直接优化3D形状的质量,这对于机器人应用至关重要。

关键设计:规范入射场机制是CoL3D的关键设计之一,它通过预定义的入射场作为先验知识,引导模型学习残差入射场,从而更准确地估计相机内参。形状相似性度量损失则通过计算预测点云与真实点云之间的距离,来约束3D形状的质量。具体的损失函数包括深度损失、相机内参损失和形状相似性损失,这些损失函数共同驱动模型的优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoL3D在多个室内和室外基准数据集上进行了评估,实验结果表明,CoL3D在深度估计和相机校准方面均取得了显著的性能提升。例如,在某个数据集上,CoL3D的深度估计误差降低了X%,相机内参的估计误差降低了Y%。此外,CoL3D重建的3D形状质量也明显优于其他方法,能够更好地满足机器人应用的需求。

🎯 应用场景

CoL3D在机器人和具身智能领域具有广泛的应用前景。它可以用于机器人的自主导航、场景理解和物体交互。通过从单张图像中恢复出准确的度量3D形状,机器人能够更好地理解周围环境,从而实现更智能的决策和行动。此外,CoL3D还可以应用于增强现实、虚拟现实和3D建模等领域,为用户提供更逼真的视觉体验。

📄 摘要(原文)

Recovering the metric 3D shape from a single image is particularly relevant for robotics and embodied intelligence applications, where accurate spatial understanding is crucial for navigation and interaction with environments. Usually, the mainstream approaches achieve it through monocular depth estimation. However, without camera intrinsics, the 3D metric shape can not be recovered from depth alone. In this study, we theoretically demonstrate that depth serves as a 3D prior constraint for estimating camera intrinsics and uncover the reciprocal relations between these two elements. Motivated by this, we propose a collaborative learning framework for jointly estimating depth and camera intrinsics, named CoL3D, to learn metric 3D shapes from single images. Specifically, CoL3D adopts a unified network and performs collaborative optimization at three levels: depth, camera intrinsics, and 3D point clouds. For camera intrinsics, we design a canonical incidence field mechanism as a prior that enables the model to learn the residual incident field for enhanced calibration. Additionally, we incorporate a shape similarity measurement loss in the point cloud space, which improves the quality of 3D shapes essential for robotic applications. As a result, when training and testing on a single dataset with in-domain settings, CoL3D delivers outstanding performance in both depth estimation and camera calibration across several indoor and outdoor benchmark datasets, which leads to remarkable 3D shape quality for the perception capabilities of robots.