Dynamic Gaussian Splatting from Defocused and Motion-blurred Monocular Videos
作者: Xuankai Zhang, Junjin Xiao, Qing Zhang
分类: cs.CV
发布日期: 2025-10-12 (更新: 2025-10-31)
备注: Accepted to NeurIPS 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出动态高斯溅射框架,解决散焦和运动模糊视频的新视角合成问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 动态高斯溅射 新视角合成 散焦模糊 运动模糊 模糊核估计 单目视频 动态场景重建
📋 核心要点
- 现有方法难以同时处理散焦和运动模糊,限制了从模糊视频中进行高质量新视角合成的能力。
- 提出一种基于模糊预测网络的像素级可靠模糊核估计方法,并结合动态高斯致密化策略,提升渲染质量。
- 实验结果表明,该方法在散焦和运动模糊视频的新视角合成任务中,超越了现有最优方法。
📝 摘要(中文)
本文提出了一个统一的框架,能够从散焦和运动模糊的单目视频中生成高质量的动态高斯溅射。由于散焦模糊和运动模糊的形成过程存在显著差异,现有方法通常针对其中一种模糊进行定制,缺乏同时处理两者的能力。虽然两者可以联合建模为基于模糊核的卷积,但准确估计模糊核的固有难度极大地限制了该方向的进展。本文在此方向上更进一步,特别地,我们提出使用模糊预测网络来估计每个像素的可靠模糊核,该网络利用与模糊相关的场景和相机信息,并受到模糊感知稀疏性约束。此外,我们引入了一种动态高斯致密化策略,以缓解不完整区域高斯不足的问题,并通过结合未见视角信息来约束场景优化,从而提高新视角合成的性能。大量实验表明,我们的方法在从散焦和运动模糊的单目视频中生成逼真的新视角合成方面优于最先进的方法。代码已开源。
🔬 方法详解
问题定义:论文旨在解决从散焦和运动模糊的单目视频中进行高质量动态高斯溅射的问题。现有方法通常只能处理单一类型的模糊,无法同时应对散焦和运动模糊,或者依赖于不准确的模糊核估计,导致新视角合成质量下降。
核心思路:论文的核心思路是利用一个模糊预测网络来估计每个像素的可靠模糊核,该网络能够利用场景和相机信息,并受到模糊感知稀疏性约束。同时,引入动态高斯致密化策略来补充不完整区域的高斯分布,并利用未见视角的信息来约束场景优化,从而提升新视角合成的质量。
技术框架:该框架主要包含以下几个模块:1) 模糊预测网络:用于估计每个像素的模糊核;2) 动态高斯溅射:利用高斯分布表示场景,并进行动态更新;3) 动态高斯致密化:用于补充不完整区域的高斯分布;4) 新视角合成:利用渲染技术生成新的视角图像。整体流程是,首先利用模糊预测网络估计模糊核,然后利用模糊核和视频帧进行动态高斯溅射,接着进行动态高斯致密化,最后进行新视角合成。
关键创新:最重要的技术创新点在于提出了一个能够估计每个像素可靠模糊核的模糊预测网络,该网络能够同时利用场景和相机信息,并受到模糊感知稀疏性约束。与现有方法相比,该方法能够更准确地估计模糊核,从而提升新视角合成的质量。此外,动态高斯致密化策略和未见视角信息约束也提升了渲染效果。
关键设计:模糊预测网络的设计细节未知,但强调了利用场景和相机信息,并施加模糊感知稀疏性约束。动态高斯致密化策略的具体实现方式未知。损失函数的设计也未知,但推测会包含渲染损失、模糊核估计损失等。
📊 实验亮点
该方法在散焦和运动模糊的单目视频新视角合成任务中,取得了优于现有最优方法的结果。具体性能数据和对比基线未知,但论文强调了在生成逼真新视角合成方面的显著提升。代码已开源,方便复现和进一步研究。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、机器人导航、自动驾驶等领域。通过从模糊视频中重建高质量的3D场景,可以提升用户体验,增强机器人的环境感知能力,并提高自动驾驶系统的安全性。
📄 摘要(原文)
This paper presents a unified framework that allows high-quality dynamic Gaussian Splatting from both defocused and motion-blurred monocular videos. Due to the significant difference between the formation processes of defocus blur and motion blur, existing methods are tailored for either one of them, lacking the ability to simultaneously deal with both of them. Although the two can be jointly modeled as blur kernel-based convolution, the inherent difficulty in estimating accurate blur kernels greatly limits the progress in this direction. In this work, we go a step further towards this direction. Particularly, we propose to estimate per-pixel reliable blur kernels using a blur prediction network that exploits blur-related scene and camera information and is subject to a blur-aware sparsity constraint. Besides, we introduce a dynamic Gaussian densification strategy to mitigate the lack of Gaussians for incomplete regions, and boost the performance of novel view synthesis by incorporating unseen view information to constrain scene optimization. Extensive experiments show that our method outperforms the state-of-the-art methods in generating photorealistic novel view synthesis from defocused and motion-blurred monocular videos. Our code is available at https://github.com/hhhddddddd/dydeblur.