DC-Gaussian: Improving 3D Gaussian Splatting for Reflective Dash Cam Videos
作者: Linhan Wang, Kai Cheng, Shuo Lei, Shengkun Wang, Wei Yin, Chenyang Lei, Xiaoxiao Long, Chang-Tien Lu
分类: cs.CV
发布日期: 2024-05-27 (更新: 2024-11-05)
备注: 10 pages,7 figures;project page: https://linhanwang.github.io/dcgaussian/; Accepted to NeurIPS 2024
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
DC-Gaussian:改进3D高斯溅射,用于反射严重的行车记录仪视频的新视角合成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 神经渲染 3D高斯溅射 行车记录仪视频 新视角合成 反射去除 遮挡处理 图像分解 几何引导
📋 核心要点
- 现有神经渲染方法难以处理行车记录仪视频中普遍存在的挡风玻璃反射和遮挡问题。
- DC-Gaussian通过自适应图像分解、光照感知障碍物建模和几何引导的高斯增强来解决上述问题。
- 实验表明,DC-Gaussian在行车记录仪视频的新视角合成和场景重建方面均优于现有技术。
📝 摘要(中文)
本文提出了一种名为DC-Gaussian的新方法,用于从车载行车记录仪视频中生成新视角图像。虽然神经渲染技术在驾驶场景中取得了显著进展,但现有方法主要针对自动驾驶车辆采集的视频设计。然而,与行车记录仪视频相比,这些视频在数量和多样性上都受到限制。行车记录仪视频经常受到挡风玻璃上的反射和遮挡等严重阻碍,这极大地阻碍了神经渲染技术的应用。为了解决这一挑战,我们基于最新的实时神经渲染技术3D高斯溅射(3DGS)开发了DC-Gaussian。我们的方法包括一个自适应图像分解模块,以统一的方式建模反射和遮挡。此外,我们引入了光照感知的障碍物建模,以管理不同光照条件下的反射和遮挡。最后,我们采用几何引导的高斯增强策略,通过结合额外的几何先验来改善渲染细节。在自采集和公共行车记录仪视频上的实验表明,我们的方法不仅在新视角合成方面实现了最先进的性能,而且还准确地重建了捕获的场景,消除了障碍物。
🔬 方法详解
问题定义:论文旨在解决行车记录仪视频中由于挡风玻璃反射和遮挡导致的新视角合成质量下降的问题。现有神经渲染方法,如NeRF及其变体,在处理这类具有复杂光照和几何干扰的场景时表现不佳,难以准确重建场景几何和渲染真实感图像。这些方法通常假设输入图像是干净的,没有明显的噪声或干扰,这与实际行车记录仪视频的特点不符。
核心思路:DC-Gaussian的核心思路是将3D高斯溅射(3DGS)与专门设计的模块相结合,以显式地建模和消除反射和遮挡的影响。通过自适应图像分解,将图像分解为反射、遮挡和场景内容三个部分,并利用光照感知建模来处理不同光照条件下的反射和遮挡变化。此外,利用几何先验知识来增强高斯表示,从而提高渲染细节和几何重建的准确性。
技术框架:DC-Gaussian的整体框架包括以下几个主要模块:1) 自适应图像分解模块:用于将输入图像分解为反射、遮挡和场景内容三个部分。2) 光照感知障碍物建模模块:用于建模不同光照条件下的反射和遮挡。3) 3D高斯溅射模块:用于基于分解后的图像和光照信息进行场景重建和新视角渲染。4) 几何引导的高斯增强模块:利用几何先验知识来增强高斯表示,提高渲染细节。整个流程首先对输入图像进行分解,然后利用分解后的图像和光照信息初始化3D高斯表示,接着通过优化3D高斯参数来重建场景几何和渲染新视角图像,最后利用几何先验知识来增强高斯表示,提高渲染质量。
关键创新:DC-Gaussian的关键创新在于以下几个方面:1) 提出了一种自适应图像分解模块,能够有效地将图像分解为反射、遮挡和场景内容三个部分。2) 引入了光照感知障碍物建模,能够处理不同光照条件下的反射和遮挡变化。3) 采用了几何引导的高斯增强策略,能够利用几何先验知识来提高渲染细节和几何重建的准确性。与现有方法相比,DC-Gaussian能够更有效地处理行车记录仪视频中的反射和遮挡问题,从而实现更高质量的新视角合成和场景重建。
关键设计:自适应图像分解模块可能采用卷积神经网络(CNN)结构,通过学习图像特征来预测反射和遮挡的mask。光照感知障碍物建模可能使用额外的网络分支来预测光照参数,并将其作为输入来调整反射和遮挡的建模方式。几何引导的高斯增强可能利用深度估计或SLAM等技术来获取场景的几何信息,并将其作为先验知识来约束高斯参数的优化。损失函数可能包括图像重建损失、深度一致性损失和光照一致性损失等,以保证重建的场景几何和光照的准确性。
🖼️ 关键图片
📊 实验亮点
论文在自采集和公共行车记录仪视频数据集上进行了实验,结果表明DC-Gaussian在定量和定性上均优于现有方法。具体而言,DC-Gaussian在PSNR、SSIM和LPIPS等指标上均取得了显著提升,并且能够生成更清晰、更真实的渲染图像。实验结果还表明,DC-Gaussian能够有效地消除挡风玻璃上的反射和遮挡,从而提高场景重建的准确性。
🎯 应用场景
DC-Gaussian在智能交通、自动驾驶和增强现实等领域具有广泛的应用前景。它可以用于提高自动驾驶系统的环境感知能力,例如,通过消除挡风玻璃上的反射来提高目标检测和跟踪的准确性。此外,它还可以用于生成逼真的虚拟驾驶场景,为驾驶员提供更安全和舒适的驾驶体验。该技术还有潜力应用于其他需要处理复杂光照和遮挡的场景,例如监控视频分析和医学图像处理。
📄 摘要(原文)
We present DC-Gaussian, a new method for generating novel views from in-vehicle dash cam videos. While neural rendering techniques have made significant strides in driving scenarios, existing methods are primarily designed for videos collected by autonomous vehicles. However, these videos are limited in both quantity and diversity compared to dash cam videos, which are more widely used across various types of vehicles and capture a broader range of scenarios. Dash cam videos often suffer from severe obstructions such as reflections and occlusions on the windshields, which significantly impede the application of neural rendering techniques. To address this challenge, we develop DC-Gaussian based on the recent real-time neural rendering technique 3D Gaussian Splatting (3DGS). Our approach includes an adaptive image decomposition module to model reflections and occlusions in a unified manner. Additionally, we introduce illumination-aware obstruction modeling to manage reflections and occlusions under varying lighting conditions. Lastly, we employ a geometry-guided Gaussian enhancement strategy to improve rendering details by incorporating additional geometry priors. Experiments on self-captured and public dash cam videos show that our method not only achieves state-of-the-art performance in novel view synthesis, but also accurately reconstructing captured scenes getting rid of obstructions. See the project page for code, data: https://linhanwang.github.io/dcgaussian/.