MODEST: Multi-Optics Depth-of-Field Stereo Dataset

📄 arXiv: 2511.20853v2 📥 PDF

作者: Nisarg K. Trivedi, Vinayak A. Belludi, Li-Yun Wang, Pardis Taghavi, Dante Lok

分类: cs.CV, cs.AI, cs.LG, eess.IV

发布日期: 2025-11-25 (更新: 2025-12-13)

备注: Website, dataset and software tools now available for purely non-commercial, academic research purposes


💡 一句话要点

MODEST:多光圈景深立体视觉数据集,弥合真实光学与合成数据差距

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 立体视觉 深度估计 数据集 景深 相机校准

📋 核心要点

  1. 现有深度估计方法在真实光学条件下表现不佳,缺乏大规模、高质量的真实立体数据集限制了模型在真实世界的泛化能力。
  2. MODEST数据集通过系统性地改变焦距和光圈,捕捉了复杂真实场景下的光学真实性和专业相机系统的复杂性。
  3. 该数据集支持对单目和立体深度估计、浅景深渲染等任务进行受控分析,并提供了校准文件和评估代码以支持可重复研究。

📝 摘要(中文)

本文提出了首个高分辨率(5472x3648像素)的立体DSLR数据集MODEST,包含18000张图像,系统性地改变了焦距和光圈,捕捉了复杂真实场景下的光学真实性和专业相机系统的复杂性。针对9个具有不同场景复杂性、光照和背景的场景,使用两个相同的相机组件,在10个焦距(28-70mm)和5个光圈(f/2.8-f/22)下拍摄图像,涵盖50种光学配置,每个场景包含2000张图像。这种全范围的光学覆盖支持对单目和立体深度估计、浅景深渲染、去模糊、3D场景重建和新视角合成的几何和光学效应进行受控分析。每个焦距配置都有专门的校准图像集,支持评估经典和基于学习的内参和外参校准方法。该数据集包含多尺度光学错觉、反射表面、镜子、透明玻璃墙、精细细节以及自然/人工环境光变化等具有挑战性的视觉元素。这项工作旨在弥合合成训练数据和真实相机光学之间的真实性差距,并展示了当前最先进的单目、立体深度和景深方法所面临的挑战。我们发布数据集、校准文件和评估代码,以支持对真实世界光学泛化的可重复研究。

🔬 方法详解

问题定义:现有的深度估计方法,尤其是在单目和立体视觉领域,在处理真实世界复杂光学条件下的图像时,面临泛化性挑战。合成数据训练的模型在真实场景中表现不佳,主要原因是缺乏大规模、高保真的真实立体数据集,无法充分模拟真实相机的光学特性,如不同焦距和光圈的影响。

核心思路:MODEST数据集的核心思路是通过使用专业级DSLR相机,系统性地控制焦距和光圈等光学参数,在真实场景中采集高质量的立体图像对。通过这种方式,数据集能够捕捉到真实世界的光学复杂性,包括景深变化、光学畸变、反射和透明等现象,从而为深度估计模型提供更具挑战性和真实性的训练和评估数据。

技术框架:MODEST数据集的构建流程包括以下几个主要阶段: 1. 场景选择:选择具有不同复杂性、光照和背景的9个真实场景。 2. 相机配置:使用两个相同的DSLR相机组件,并进行精确的同步和校准。 3. 参数控制:在每个场景中,系统性地改变焦距(28-70mm,10个档位)和光圈(f/2.8-f/22,5个档位),共计50种光学配置。 4. 数据采集:在每种光学配置下,采集2000张图像,总计18000张图像。 5. 数据校准:为每种焦距配置提供专门的校准图像集,用于内参和外参校准。

关键创新:MODEST数据集的关键创新在于其对真实相机光学特性的系统性建模和捕捉。与现有的合成数据集或小型真实数据集相比,MODEST提供了更大规模、更高分辨率、更全面的光学参数覆盖,能够更真实地反映真实世界的光学现象,从而为深度估计模型的训练和评估提供更可靠的基础。

关键设计:MODEST数据集的关键设计包括: 1. 高分辨率图像:5472x3648像素的分辨率能够捕捉到更精细的场景细节。 2. 全范围光学参数覆盖:10个焦距和5个光圈的组合能够模拟不同景深和光学畸变。 3. 多样化的场景:9个场景涵盖了不同的复杂性、光照和背景,增加了数据集的多样性。 4. 精确的校准数据:为每种焦距配置提供校准图像集,方便用户进行相机校准。

📊 实验亮点

论文通过实验验证了现有单目、立体深度和景深方法在MODEST数据集上的挑战。实验结果表明,现有方法在处理真实光学条件下的图像时,性能显著下降,突显了MODEST数据集的价值和意义。数据集的发布将促进相关领域的研究,并推动更鲁棒、更准确的深度估计方法的发展。

🎯 应用场景

MODEST数据集在自动驾驶、增强现实、机器人导航等领域具有广泛的应用前景。它可以用于训练和评估深度估计模型,提高模型在真实场景中的鲁棒性和准确性。此外,该数据集还可以用于研究浅景深渲染、去模糊、3D场景重建和新视角合成等问题,促进相关领域的发展。未来,基于MODEST数据集的研究有望推动计算机视觉技术在真实世界中的应用。

📄 摘要(原文)

Reliable depth estimation under real optical conditions remains a core challenge for camera vision in systems such as autonomous robotics and augmented reality. Despite recent progress in depth estimation and depth-of-field rendering, research remains constrained by the lack of large-scale, high-fidelity, real stereo DSLR datasets, limiting real-world generalization and evaluation of models trained on synthetic data as shown extensively in literature. We present the first high-resolution (5472$\times$3648px) stereo DSLR dataset with 18000 images, systematically varying focal length and aperture across complex real scenes and capturing the optical realism and complexity of professional camera systems. For 9 scenes with varying scene complexity, lighting and background, images are captured with two identical camera assemblies at 10 focal lengths (28-70mm) and 5 apertures (f/2.8-f/22), spanning 50 optical configurations in 2000 images per scene. This full-range optics coverage enables controlled analysis of geometric and optical effects for monocular and stereo depth estimation, shallow depth-of-field rendering, deblurring, 3D scene reconstruction and novel view synthesis. Each focal configuration has a dedicated calibration image set, supporting evaluation of classical and learning based methods for intrinsic and extrinsic calibration. The dataset features challenging visual elements such as multi-scale optical illusions, reflective surfaces, mirrors, transparent glass walls, fine-grained details, and natural / artificial ambient light variations. This work attempts to bridge the realism gap between synthetic training data and real camera optics, and demonstrates challenges with the current state-of-the-art monocular, stereo depth and depth-of-field methods. We release the dataset, calibration files, and evaluation code to support reproducible research on real-world optical generalization.