DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

📄 arXiv: 2604.13416v1 📥 PDF

作者: Cheng-You Lu, Yi-Shan Hung, Wei-Ling Chi, Hao-Ping Wang, Charlie Li-Ting Tsai, Yu-Cheng Chang, Yu-Lun Liu, Thomas Do, Chin-Teng Lin

分类: cs.CV, cs.AI

发布日期: 2026-04-15


💡 一句话要点

提出大规模无干扰物新视角合成数据集DF3DV-1K,促进相关方法研究。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 辐射场 数据集 无干扰物 基准测试 扩散模型 图像增强

📋 核心要点

  1. 现有辐射场方法缺乏大规模的、包含干净和杂乱图像的真实世界数据集,限制了无干扰物场景新视角合成的发展。
  2. 构建大规模真实世界数据集DF3DV-1K,包含1048个场景,提供干净和杂乱图像,用于评估和提升无干扰物辐射场方法的性能。
  3. 通过基准测试和微调实验,验证了DF3DV-1K的有效性,并在新视角合成任务上取得了显著的性能提升。

📝 摘要(中文)

本文提出了一个大规模的真实世界数据集DF3DV-1K,用于无干扰物辐射场的新视角合成。该数据集包含1048个场景,每个场景都提供了干净和杂乱的图像集,用于基准测试。总共包含89924张使用消费级相机拍摄的图像,模拟了日常拍摄场景,涵盖128种干扰物类型和161个室内外场景主题。作者还精心设计了一个包含41个场景的子集DF3DV-41,用于评估无干扰物辐射场方法在具有挑战性场景下的鲁棒性。使用DF3DV-1K,作者对九种最新的无干扰物辐射场方法和3D高斯溅射进行了基准测试,确定了最鲁棒的方法和最具挑战性的场景。此外,作者还展示了DF3DV-1K的一个应用,即通过微调基于扩散的2D增强器来改进辐射场方法,在保留集(例如DF3DV-41)和On-the-go数据集上实现了平均0.96 dB PSNR和0.057 LPIPS的提升。希望DF3DV-1K能够促进无干扰物视觉的发展,并推动超越特定场景的方法研究。

🔬 方法详解

问题定义:现有辐射场方法在处理真实世界场景时,容易受到干扰物的影响,导致新视角合成质量下降。缺乏大规模的、包含干净和杂乱图像的数据集,使得研究人员难以充分评估和改进无干扰物辐射场方法。现有方法通常针对特定场景进行优化,泛化能力较弱。

核心思路:构建一个大规模的真实世界数据集,包含各种类型的干扰物和场景,为无干扰物辐射场方法提供全面的训练和评估数据。通过对现有方法进行基准测试,识别其优缺点,并利用数据集进行微调,提升其鲁棒性和泛化能力。

技术框架:DF3DV-1K数据集包含1048个场景,每个场景包含干净和杂乱两组图像。图像使用消费级相机拍摄,模拟日常拍摄场景。数据集还包含一个精心设计的子集DF3DV-41,用于评估方法在具有挑战性场景下的鲁棒性。作者使用该数据集对九种最新的无干扰物辐射场方法和3D高斯溅射进行了基准测试。此外,作者还使用该数据集微调了一个基于扩散的2D增强器,以提升辐射场方法的性能。

关键创新:DF3DV-1K是首个大规模的、专门为无干扰物辐射场方法设计的数据集。该数据集包含各种类型的干扰物和场景,能够全面评估和提升方法的鲁棒性和泛化能力。通过基准测试和微调实验,验证了数据集的有效性,并为未来的研究提供了新的方向。

关键设计:DF3DV-1K数据集的场景选择涵盖了室内和室外环境,以及各种类型的干扰物。图像的拍摄模拟了日常拍摄场景,以保证数据集的真实性。DF3DV-41子集的设计考虑了各种具有挑战性的场景,例如光照变化、遮挡等。在微调实验中,作者使用了基于扩散的2D增强器,并针对辐射场方法的特点进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过DF3DV-1K数据集,作者对九种最新的无干扰物辐射场方法和3D高斯溅射进行了基准测试,确定了最鲁棒的方法和最具挑战性的场景。通过微调基于扩散的2D增强器,辐射场方法在保留集(DF3DV-41)和On-the-go数据集上实现了平均0.96 dB PSNR和0.057 LPIPS的提升。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、虚拟现实、增强现实等领域。通过提升无干扰物场景的新视角合成质量,可以提高自动驾驶系统的环境感知能力,增强机器人在复杂环境中的导航能力,并为用户提供更逼真的虚拟现实和增强现实体验。

📄 摘要(原文)

Advances in radiance fields have enabled photorealistic novel view synthesis. In several domains, large-scale real-world datasets have been developed to support comprehensive benchmarking and to facilitate progress beyond scene-specific reconstruction. However, for distractor-free radiance fields, a large-scale dataset with clean and cluttered images per scene remains lacking, limiting the development. To address this gap, we introduce DF3DV-1K, a large-scale real-world dataset comprising 1,048 scenes, each providing clean and cluttered image sets for benchmarking. In total, the dataset contains 89,924 images captured using consumer cameras to mimic casual capture, spanning 128 distractor types and 161 scene themes across indoor and outdoor environments. A curated subset of 41 scenes, DF3DV-41, is systematically designed to evaluate the robustness of distractor-free radiance field methods under challenging scenarios. Using DF3DV-1K, we benchmark nine recent distractor-free radiance field methods and 3D Gaussian Splatting, identifying the most robust methods and the most challenging scenarios. Beyond benchmarking, we demonstrate an application of DF3DV-1K by fine-tuning a diffusion-based 2D enhancer to improve radiance field methods, achieving average improvements of 0.96 dB PSNR and 0.057 LPIPS on the held-out set (e.g., DF3DV-41) and the On-the-go dataset. We hope DF3DV-1K facilitates the development of distractor-free vision and promotes progress beyond scene-specific approaches.