FIORD: A Fisheye Indoor-Outdoor Dataset with LIDAR Ground Truth for 3D Scene Reconstruction and Benchmarking

📄 arXiv: 2504.01732v2 📥 PDF

作者: Ulas Gunes, Matias Turkulainen, Xuqian Ren, Arno Solin, Juho Kannala, Esa Rahtu

分类: cs.CV

发布日期: 2025-04-02 (更新: 2025-04-09)

备注: SCIA 2025


💡 一句话要点

FIORD:用于3D场景重建和基准测试的鱼眼室内外数据集,包含激光雷达真值

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 鱼眼图像 三维重建 激光雷达 数据集 场景重建 新视角合成 SfM Gaussian Splatting

📋 核心要点

  1. 现有大规模3D场景重建方法依赖于窄视场透视图像数据集,限制了其在大型场景中的可扩展性。
  2. FIORD数据集利用双鱼眼镜头提供360度全景图像,并结合激光雷达数据生成精确的几何真值,用于场景重建。
  3. 基线实验验证了数据集的有效性,支持Gaussian Splatting和NeRF等多种方法,为场景重建研究提供了新的基准。

📝 摘要(中文)

本文介绍了一个专为场景重建任务设计的鱼眼图像数据集FIORD。该数据集使用双200度鱼眼镜头,提供5个室内和5个室外场景的完整360度覆盖。每个场景都包含稀疏的SfM点云和精确的激光雷达(LIDAR)导出的密集点云,可用作几何真值,从而能够在遮挡和反射等具有挑战性的条件下进行稳健的基准测试。基线实验侧重于vanilla Gaussian Splatting和基于NeRF的Nerfacto方法,但该数据集支持各种场景重建、新视角合成和基于图像的渲染方法。

🔬 方法详解

问题定义:现有的大规模三维场景重建方法主要依赖于窄视场角的透视图像数据集。这些数据集在小规模场景中表现良好,但需要大量的图像和复杂的Structure-from-Motion (SfM) 处理,导致在大规模场景中难以扩展。因此,如何构建一个能够有效支持大规模场景重建,并且提供精确几何真值的数据集,是一个亟待解决的问题。

核心思路:本文的核心思路是利用鱼眼镜头的大视场角特性,结合激光雷达(LIDAR)的精确测距能力,构建一个包含室内外场景的鱼眼图像数据集。通过鱼眼镜头获取360度全景图像,减少了重建场景所需的图像数量,提高了效率。同时,利用激光雷达数据生成高精度的密集点云,作为几何真值,为算法的评估和改进提供了可靠的依据。

技术框架:FIORD数据集的构建流程主要包括以下几个阶段:1) 数据采集:使用配备双200度鱼眼镜头的相机系统,在5个室内和5个室外场景中采集图像。2) SfM处理:利用采集的图像生成稀疏的SfM点云,作为初始几何信息。3) 激光雷达扫描:使用激光雷达设备对场景进行扫描,获取高精度的密集点云。4) 数据对齐与融合:将SfM点云和激光雷达点云进行对齐和融合,生成最终的几何真值。5) 数据集发布:将采集的图像、SfM点云和激光雷达点云整理成数据集,并提供相应的评估工具。

关键创新:该论文的关键创新在于构建了一个包含鱼眼图像和激光雷达真值的大规模室内外场景数据集。与传统的透视图像数据集相比,鱼眼图像具有更大的视场角,可以减少重建场景所需的图像数量。与传统的SfM方法相比,激光雷达数据可以提供更精确的几何信息,避免了SfM方法中的累积误差。

关键设计:在数据采集方面,使用了双200度鱼眼镜头,确保了360度的全景覆盖。在数据对齐方面,采用了ICP (Iterative Closest Point) 等算法,将SfM点云和激光雷达点云进行精确对齐。在基线实验方面,选择了Gaussian Splatting和NeRF等先进的场景重建方法,验证了数据集的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在FIORD数据集上进行基线实验,验证了数据集的有效性。实验结果表明,Gaussian Splatting和NeRF等方法可以在该数据集上取得良好的重建效果。此外,论文还分析了数据集的特点和挑战,为未来的研究提供了指导。例如,论文指出,鱼眼图像的畸变校正和激光雷达数据的噪声处理是需要重点关注的问题。

🎯 应用场景

FIORD数据集可广泛应用于三维场景重建、新视角合成、机器人导航、虚拟现实、增强现实等领域。该数据集提供的鱼眼图像和激光雷达真值,可以帮助研究人员开发更高效、更精确的场景重建算法,并推动相关技术在实际场景中的应用。例如,可以用于构建室内导航系统,或者用于生成逼真的虚拟现实场景。

📄 摘要(原文)

The development of large-scale 3D scene reconstruction and novel view synthesis methods mostly rely on datasets comprising perspective images with narrow fields of view (FoV). While effective for small-scale scenes, these datasets require large image sets and extensive structure-from-motion (SfM) processing, limiting scalability. To address this, we introduce a fisheye image dataset tailored for scene reconstruction tasks. Using dual 200-degree fisheye lenses, our dataset provides full 360-degree coverage of 5 indoor and 5 outdoor scenes. Each scene has sparse SfM point clouds and precise LIDAR-derived dense point clouds that can be used as geometric ground-truth, enabling robust benchmarking under challenging conditions such as occlusions and reflections. While the baseline experiments focus on vanilla Gaussian Splatting and NeRF based Nerfacto methods, the dataset supports diverse approaches for scene reconstruction, novel view synthesis, and image-based rendering.