Dynamic Gaussian Splatting from Defocused and Motion-blurred Monocular Videos

📄 arXiv: 2510.10691v3 📥 PDF

作者: Xuankai Zhang, Junjin Xiao, Qing Zhang

分类: cs.CV

发布日期: 2025-10-12 (更新: 2025-10-31)

备注: Accepted to NeurIPS 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出动态高斯溅射框架,解决散焦和运动模糊视频的新视角合成问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态高斯溅射 散焦模糊 运动模糊 新视角合成 模糊核估计

📋 核心要点

  1. 现有方法难以同时处理散焦和运动模糊,因为两者模糊形成机理差异大,且准确估计模糊核非常困难。
  2. 提出一种基于模糊预测网络的像素级可靠模糊核估计方法,并结合模糊感知的稀疏性约束。
  3. 引入动态高斯致密化策略,并利用未见视角信息约束场景优化,显著提升新视角合成质量。

📝 摘要(中文)

本文提出了一个统一的框架,能够从散焦和运动模糊的单目视频中生成高质量的动态高斯溅射。由于散焦模糊和运动模糊的形成过程存在显著差异,现有方法通常针对其中一种模糊进行定制,缺乏同时处理两者的能力。虽然两者可以联合建模为基于模糊核的卷积,但准确估计模糊核的内在困难极大地限制了该方向的进展。本文在此方向上更进一步,提出使用模糊预测网络来估计每个像素的可靠模糊核,该网络利用与模糊相关的场景和相机信息,并受到模糊感知的稀疏性约束。此外,我们引入了一种动态高斯致密化策略,以缓解不完整区域高斯不足的问题,并通过结合未见过的视角信息来约束场景优化,从而提高新视角合成的性能。大量实验表明,我们的方法在从散焦和运动模糊的单目视频中生成逼真的新视角合成方面优于最先进的方法。代码已开源。

🔬 方法详解

问题定义:论文旨在解决从散焦和运动模糊的单目视频中进行高质量动态高斯溅射的问题。现有方法通常只能处理其中一种模糊,无法同时有效处理散焦和运动模糊。即使将两者建模为基于模糊核的卷积,准确估计模糊核仍然是一个巨大的挑战,严重阻碍了相关研究的进展。

核心思路:论文的核心思路是利用一个模糊预测网络来估计每个像素的可靠模糊核。该网络不仅利用了与模糊相关的场景和相机信息,还引入了模糊感知的稀疏性约束,从而提高了模糊核估计的准确性。此外,论文还引入了动态高斯致密化策略和未见视角信息约束,进一步提升了新视角合成的质量。

技术框架:该方法主要包含以下几个阶段:1) 使用模糊预测网络估计每个像素的模糊核;2) 利用估计的模糊核进行图像去模糊;3) 使用去模糊后的图像进行动态高斯溅射的场景重建和优化;4) 引入动态高斯致密化策略,增加高斯点的数量,以填充不完整区域;5) 利用未见视角的信息来约束场景优化,提高新视角合成的质量。

关键创新:论文的关键创新在于提出了一种基于模糊预测网络的像素级模糊核估计方法,该方法能够有效地利用场景和相机信息,并结合模糊感知的稀疏性约束,从而提高了模糊核估计的准确性。此外,动态高斯致密化策略和未见视角信息约束也是重要的创新点,它们能够有效地提高新视角合成的质量。

关键设计:模糊预测网络的设计是关键。具体来说,该网络需要能够提取与模糊相关的场景和相机信息,并能够学习到模糊核的稀疏性。损失函数的设计也至关重要,需要能够有效地约束模糊核的估计,并保证重建场景的质量。动态高斯致密化策略的具体实现方式,以及如何有效地利用未见视角的信息来约束场景优化,也是需要仔细考虑的关键设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在从散焦和运动模糊的单目视频中生成逼真的新视角合成方面优于当前最先进的方法。具体性能提升数据未知,但论文强调了在处理复杂模糊场景下的显著优势。开源代码为进一步研究和应用提供了便利。

🎯 应用场景

该研究成果可应用于增强现实、虚拟现实、机器人导航、自动驾驶等领域。例如,在机器人导航中,可以利用该方法从模糊的摄像头图像中重建出清晰的场景,从而提高机器人的定位和导航精度。在自动驾驶中,可以利用该方法从运动模糊的视频中重建出清晰的场景,从而提高车辆的感知能力和安全性。

📄 摘要(原文)

This paper presents a unified framework that allows high-quality dynamic Gaussian Splatting from both defocused and motion-blurred monocular videos. Due to the significant difference between the formation processes of defocus blur and motion blur, existing methods are tailored for either one of them, lacking the ability to simultaneously deal with both of them. Although the two can be jointly modeled as blur kernel-based convolution, the inherent difficulty in estimating accurate blur kernels greatly limits the progress in this direction. In this work, we go a step further towards this direction. Particularly, we propose to estimate per-pixel reliable blur kernels using a blur prediction network that exploits blur-related scene and camera information and is subject to a blur-aware sparsity constraint. Besides, we introduce a dynamic Gaussian densification strategy to mitigate the lack of Gaussians for incomplete regions, and boost the performance of novel view synthesis by incorporating unseen view information to constrain scene optimization. Extensive experiments show that our method outperforms the state-of-the-art methods in generating photorealistic novel view synthesis from defocused and motion-blurred monocular videos. Our code is available at https://github.com/hhhddddddd/dydeblur.