360 in the Wild: Dataset for Depth Prediction and View Synthesis

📄 arXiv: 2406.18898v2 📥 PDF

作者: Kibaek Park, Francois Rameau, Jaesik Park, In So Kweon

分类: cs.CV, cs.AI

发布日期: 2024-06-27 (更新: 2024-07-05)


💡 一句话要点

提出大规模真实场景360°视频数据集,用于深度预测和视角合成研究

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 360°视频 数据集 深度预测 视角合成 真实场景 相机位姿 深度图

📋 核心要点

  1. 现有的视角相机数据集促进了相机定位、单图像深度估计和视角合成等任务的发展,但全景图像数据集主要由合成场景构成。
  2. 本文提出一个大规模的真实场景360°视频数据集,包含相机位姿和深度信息,旨在弥补真实全景图像数据不足的现状。
  3. 实验表明,该数据集在单图像深度估计和视角合成两个任务上具有重要价值,能够推动相关算法在真实场景下的性能提升。

📝 摘要(中文)

本文介绍了一个大规模的真实场景360°视频数据集,该数据集从互联网上精心收集,包含来自世界各地不同地点的视频。因此,该数据集展示了非常多样化的环境(例如,室内和室外)和上下文(例如,有和没有移动物体)。数据集包含25K张图像,每张图像都提供了其对应的相机位姿和深度图。我们通过单图像深度估计和视角合成这两个主要任务,展示了该数据集的相关性。

🔬 方法详解

问题定义:现有的全景或全向图像数据集,特别是包含位姿和深度信息的,大多是合成数据。真实场景的全景数据集非常稀缺,这限制了相关算法在实际应用中的性能和泛化能力。因此,论文旨在提供一个大规模、多样化的真实场景360°视频数据集,以促进深度预测和视角合成等任务的研究。

核心思路:论文的核心思路是从互联网上收集大量的360°视频,并从中提取图像帧,然后为每张图像提供相机位姿和深度图。通过这种方式,可以构建一个包含各种环境和上下文的真实场景数据集,从而更好地反映实际应用中的复杂情况。

技术框架:该数据集的构建流程主要包括以下几个步骤:1) 从互联网上收集360°视频;2) 从视频中提取图像帧;3) 使用SLAM或其他方法估计每张图像的相机位姿;4) 使用深度估计方法或传感器获取每张图像的深度图;5) 对数据进行清洗和验证,确保数据的质量。

关键创新:该论文的关键创新在于构建了一个大规模的真实场景360°视频数据集。与现有的合成数据集相比,该数据集更真实、更具多样性,能够更好地反映实际应用中的复杂情况。此外,该数据集还提供了相机位姿和深度图等关键信息,方便研究人员进行深度预测和视角合成等任务的研究。

关键设计:数据集包含25K张图像,这些图像来自各种不同的地点和环境,包括室内和室外场景,以及有和没有移动物体的场景。为了确保数据的质量,论文作者对数据进行了清洗和验证。此外,论文作者还提供了用于单图像深度估计和视角合成任务的基线模型和评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在单图像深度估计和视角合成两个任务上进行实验,验证了该数据集的有效性。实验结果表明,在该数据集上训练的模型在真实场景下具有更好的性能。此外,论文还提供了基线模型和评估指标,方便研究人员进行比较和改进。

🎯 应用场景

该数据集可广泛应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。例如,机器人可以利用该数据集训练深度估计模型,从而更好地理解周围环境,实现自主导航。自动驾驶系统可以利用该数据集进行场景理解和三维重建,提高驾驶安全性。虚拟现实和增强现实应用可以利用该数据集生成更逼真的虚拟场景。

📄 摘要(原文)

The large abundance of perspective camera datasets facilitated the emergence of novel learning-based strategies for various tasks, such as camera localization, single image depth estimation, or view synthesis. However, panoramic or omnidirectional image datasets, including essential information, such as pose and depth, are mostly made with synthetic scenes. In this work, we introduce a large scale 360$^{\circ}$ videos dataset in the wild. This dataset has been carefully scraped from the Internet and has been captured from various locations worldwide. Hence, this dataset exhibits very diversified environments (e.g., indoor and outdoor) and contexts (e.g., with and without moving objects). Each of the 25K images constituting our dataset is provided with its respective camera's pose and depth map. We illustrate the relevance of our dataset for two main tasks, namely, single image depth estimation and view synthesis.