GaussianSR: 3D Gaussian Super-Resolution with 2D Diffusion Priors
作者: Xiqian Yu, Hanxin Zhu, Tianyu He, Zhibo Chen
分类: cs.CV
发布日期: 2024-06-14
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出GaussianSR,利用2D扩散先验实现低分辨率图像到高分辨率3D高斯模型的超分辨率重建。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 超分辨率 新视角合成 扩散模型 知识蒸馏 低分辨率重建 神经渲染
📋 核心要点
- 从低分辨率图像重建高分辨率新视角是难题,现有NeRF方法渲染速度慢,难以满足实时性需求。
- GaussianSR利用3D高斯溅射加速渲染,并引入2D扩散先验,通过知识蒸馏弥补高分辨率数据缺失。
- 通过时间步长退火和高斯基元随机丢弃,有效抑制了扩散先验引入的随机性,提升了重建质量。
📝 摘要(中文)
本文提出GaussianSR,旨在解决从低分辨率输入视图中实现高分辨率新视角合成(HRNVS)的挑战。现有方法通常优化高分辨率神经辐射场(NeRF),但渲染速度较慢。本文基于3D高斯溅射(3DGS),因为它能以更快的渲染速度生成高质量图像。为了缓解高分辨率合成的数据不足问题,本文利用现成的2D扩散先验,通过Score Distillation Sampling (SDS)将2D知识提炼到3D。然而,直接将SDS应用于基于高斯的3D超分辨率会导致不希望的冗余3D高斯基元,这是由于生成先验带来的随机性。为了缓解这个问题,本文引入了两种简单而有效的技术来减少SDS引入的随机扰动:1)通过退火策略缩小SDS中扩散时间步长的范围;2)在密集化过程中随机丢弃冗余的高斯基元。大量实验表明,本文提出的GaussianSR可以在合成和真实世界数据集上,仅使用低分辨率输入来实现高质量的HRNVS结果。
🔬 方法详解
问题定义:论文旨在解决从低分辨率图像中重建高分辨率3D场景并进行新视角合成的问题。现有基于NeRF的方法虽然可以实现高分辨率重建,但渲染速度慢,难以满足实时应用的需求。直接将2D扩散模型应用于3D高斯溅射超分辨率重建时,由于扩散模型的随机性,容易产生冗余的高斯基元,影响重建质量和效率。
核心思路:论文的核心思路是结合3D高斯溅射的快速渲染能力和2D扩散模型的先验知识,利用2D扩散模型指导3D高斯模型的优化,从而在低分辨率输入下实现高质量的高分辨率3D重建。通过引入时间步长退火和高斯基元随机丢弃策略,减少扩散模型引入的随机性,避免生成冗余的高斯基元。
技术框架:GaussianSR的整体框架包括以下几个主要阶段:1) 初始化3D高斯模型;2) 使用低分辨率图像进行初步优化;3) 利用Score Distillation Sampling (SDS) 将2D扩散模型的先验知识蒸馏到3D高斯模型中,提升高分辨率重建质量;4) 通过时间步长退火和高斯基元随机丢弃策略,减少SDS引入的随机性,避免生成冗余的高斯基元;5) 最终优化得到高分辨率3D高斯模型。
关键创新:论文的关键创新在于:1) 将2D扩散模型与3D高斯溅射相结合,利用2D扩散模型的先验知识指导3D高斯模型的优化,从而在低分辨率输入下实现高质量的高分辨率3D重建;2) 提出了时间步长退火和高斯基元随机丢弃策略,有效减少了SDS引入的随机性,避免生成冗余的高斯基元,提升了重建质量和效率。
关键设计:论文的关键设计包括:1) 使用Score Distillation Sampling (SDS) 作为知识蒸馏方法,将2D扩散模型的先验知识传递到3D高斯模型中;2) 引入时间步长退火策略,逐渐减小SDS中扩散时间步长的范围,从而减少扩散模型引入的随机性;3) 在高斯基元密集化过程中,随机丢弃冗余的高斯基元,避免生成过多的高斯基元,提升重建效率。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
论文在合成和真实数据集上进行了大量实验,结果表明GaussianSR能够仅使用低分辨率输入,实现高质量的高分辨率新视角合成。具体性能数据和对比基线未知,但论文强调了其在视觉质量上的显著提升。通过引入时间步长退火和高斯基元随机丢弃策略,有效减少了SDS引入的随机性,提升了重建质量和效率。
🎯 应用场景
GaussianSR在虚拟现实、增强现实、游戏开发等领域具有广泛的应用前景。它可以用于从低分辨率图像或视频中重建高质量的3D场景,从而提升用户体验。此外,该方法还可以应用于文物保护、城市建模等领域,通过低成本的数据采集实现高精度的3D重建。未来,GaussianSR有望成为一种通用的3D重建工具,为各行各业带来便利。
📄 摘要(原文)
Achieving high-resolution novel view synthesis (HRNVS) from low-resolution input views is a challenging task due to the lack of high-resolution data. Previous methods optimize high-resolution Neural Radiance Field (NeRF) from low-resolution input views but suffer from slow rendering speed. In this work, we base our method on 3D Gaussian Splatting (3DGS) due to its capability of producing high-quality images at a faster rendering speed. To alleviate the shortage of data for higher-resolution synthesis, we propose to leverage off-the-shelf 2D diffusion priors by distilling the 2D knowledge into 3D with Score Distillation Sampling (SDS). Nevertheless, applying SDS directly to Gaussian-based 3D super-resolution leads to undesirable and redundant 3D Gaussian primitives, due to the randomness brought by generative priors. To mitigate this issue, we introduce two simple yet effective techniques to reduce stochastic disturbances introduced by SDS. Specifically, we 1) shrink the range of diffusion timestep in SDS with an annealing strategy; 2) randomly discard redundant Gaussian primitives during densification. Extensive experiments have demonstrated that our proposed GaussainSR can attain high-quality results for HRNVS with only low-resolution inputs on both synthetic and real-world datasets. Project page: https://chchnii.github.io/GaussianSR/