CoCoGaussian: Leveraging Circle of Confusion for Gaussian Splatting from Defocused Images

📄 arXiv: 2412.16028v2 📥 PDF

作者: Jungho Lee, Suhwan Cho, Taeoh Kim, Ho-Deok Jang, Minhyeok Lee, Geonho Cha, Dongyoon Wee, Dogyoon Lee, Sangyoun Lee

分类: cs.CV

发布日期: 2024-12-20 (更新: 2025-05-15)

备注: CVPR 2025, Project Page: https://Jho-Yonsei.github.io/CoCoGaussian/


💡 一句话要点

CoCoGaussian:利用弥散圆进行离焦图像的3D高斯溅射

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 离焦模糊 弥散圆 场景重建 新视角合成

📋 核心要点

  1. 传统3D高斯溅射方法依赖清晰图像,但在实际场景中,离焦模糊是常见问题,影响场景重建质量。
  2. CoCoGaussian通过对弥散圆(CoC)进行建模,利用3D高斯精确捕获CoC形状,从而解决离焦模糊问题。
  3. 实验结果表明,CoCoGaussian在合成和真实数据集上均取得了优于现有技术的性能表现。

📝 摘要(中文)

3D高斯溅射(3DGS)因其高质量的新视角渲染而备受关注,并激发了解决现实世界挑战的研究。传统方法依赖清晰的图像进行精确的场景重建,但现实场景通常受到有限景深导致的离焦模糊的影响,因此必须考虑真实的3D场景表示。本文提出了CoCoGaussian,一种弥散圆感知的3D高斯溅射,它仅使用离焦图像即可实现精确的3D场景表示。CoCoGaussian通过基于摄影离焦原理的物理方法对弥散圆(CoC)进行建模,从而解决了离焦模糊的挑战。利用3D高斯,我们计算深度和可学习孔径信息中的CoC直径,生成多个高斯来精确捕获CoC形状。此外,我们引入了一个可学习的缩放因子,以增强鲁棒性,并在具有反射或折射表面的场景中提供更大的灵活性来处理不可靠的深度。在合成和真实世界数据集上的实验表明,CoCoGaussian在多个基准测试中实现了最先进的性能。

🔬 方法详解

问题定义:现有3D高斯溅射方法在处理离焦图像时性能显著下降,因为这些方法依赖于清晰的图像进行精确的场景重建。现实世界中,由于有限的景深,离焦模糊是不可避免的,这导致了场景表示的不准确。因此,如何从离焦图像中实现高质量的3D场景重建是一个关键问题。

核心思路:CoCoGaussian的核心思路是显式地对离焦模糊进行建模,具体来说,就是对弥散圆(Circle of Confusion, CoC)进行建模。通过模拟摄影离焦的物理过程,利用深度信息和可学习的孔径参数来估计CoC的大小和形状,并使用多个3D高斯来表示这个CoC。这样,即使输入图像是模糊的,也能通过对模糊过程的逆向建模,恢复出清晰的3D场景结构。

技术框架:CoCoGaussian的整体框架可以概括为以下几个步骤:1. 从输入图像中估计深度信息。2. 基于深度信息和可学习的孔径参数,计算每个像素的CoC直径。3. 根据CoC直径,为每个像素生成多个3D高斯,这些高斯共同表示该像素的模糊效果。4. 使用这些高斯进行渲染,并通过优化高斯参数来最小化渲染图像与输入图像之间的差异。5. 引入可学习的缩放因子来处理深度估计不准确的情况,特别是在反射或折射表面上。

关键创新:CoCoGaussian的关键创新在于它将摄影离焦的物理模型与3D高斯溅射相结合,显式地对离焦模糊进行建模。与以往忽略离焦模糊或简单地使用模糊核进行处理的方法不同,CoCoGaussian通过对CoC进行精确建模,能够更准确地表示模糊效果,从而实现更好的3D场景重建效果。此外,可学习的缩放因子进一步增强了模型的鲁棒性,使其能够处理更复杂的场景。

关键设计:CoCoGaussian的关键设计包括:1. 使用3D高斯来表示CoC的形状,每个高斯的参数(如位置、方差、颜色等)都是可学习的。2. 使用深度信息和可学习的孔径参数来计算CoC直径,这使得模型能够适应不同的景深和相机设置。3. 引入可学习的缩放因子来调整深度估计的置信度,这有助于处理深度估计不准确的情况。4. 使用基于图像差异的损失函数来优化高斯参数,例如L1损失或感知损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoCoGaussian在合成和真实数据集上都取得了显著的性能提升。在合成数据集上,CoCoGaussian在PSNR、SSIM和LPIPS等指标上均优于现有方法。在真实数据集上,CoCoGaussian也能够生成更清晰、更准确的3D场景,尤其是在存在明显离焦模糊的区域。实验结果表明,CoCoGaussian能够有效地处理离焦模糊,并实现高质量的3D场景重建。

🎯 应用场景

CoCoGaussian在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于从低质量或离焦图像中重建高质量的3D场景,从而提高这些应用在实际环境中的鲁棒性和准确性。此外,该方法还可以用于图像修复和增强,例如,可以用于去除图像中的离焦模糊,提高图像的清晰度。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) has attracted significant attention for its high-quality novel view rendering, inspiring research to address real-world challenges. While conventional methods depend on sharp images for accurate scene reconstruction, real-world scenarios are often affected by defocus blur due to finite depth of field, making it essential to account for realistic 3D scene representation. In this study, we propose CoCoGaussian, a Circle of Confusion-aware Gaussian Splatting that enables precise 3D scene representation using only defocused images. CoCoGaussian addresses the challenge of defocus blur by modeling the Circle of Confusion (CoC) through a physically grounded approach based on the principles of photographic defocus. Exploiting 3D Gaussians, we compute the CoC diameter from depth and learnable aperture information, generating multiple Gaussians to precisely capture the CoC shape. Furthermore, we introduce a learnable scaling factor to enhance robustness and provide more flexibility in handling unreliable depth in scenes with reflective or refractive surfaces. Experiments on both synthetic and real-world datasets demonstrate that CoCoGaussian achieves state-of-the-art performance across multiple benchmarks.