Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis
作者: Zhan Li, Zhang Chen, Zhong Li, Yi Xu
分类: cs.CV, cs.GR
发布日期: 2023-12-28 (更新: 2024-04-04)
备注: Accepted to CVPR 2024. Project page: https://oppo-us-research.github.io/SpacetimeGaussians-website/
🔗 代码/项目: GITHUB
💡 一句话要点
提出时空高斯特征溅射,实现动态场景实时新视角合成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 动态场景 高斯溅射 实时渲染 神经渲染
📋 核心要点
- 动态场景新视角合成面临高分辨率、真实感渲染、实时性和紧凑存储的挑战。
- 提出时空高斯特征溅射,通过时空高斯建模动态内容,并用神经特征进行渲染。
- 实验表明,该方法在渲染质量和速度上均达到SOTA,同时保持了紧凑的存储。
📝 摘要(中文)
本文提出了一种名为时空高斯特征溅射的动态场景表示方法,用于解决动态场景新视角合成问题。该方法由三个关键部分组成。首先,通过使用时间不透明度和参数化运动/旋转增强3D高斯,构建了富有表现力的时空高斯,从而能够捕获场景中的静态、动态和瞬态内容。其次,引入了溅射特征渲染,用神经特征代替球谐函数,从而在保持小尺寸的同时,能够对视角和时间相关的外观进行建模。第三,利用训练误差和粗略深度的指导,在现有流程难以收敛的区域采样新的高斯。在多个已建立的真实世界数据集上的实验表明,该方法在保持紧凑存储的同时,实现了最先进的渲染质量和速度。在Nvidia RTX 4090 GPU上,我们的轻量级模型可以在8K分辨率下以60 FPS的速度渲染。
🔬 方法详解
问题定义:动态场景的新视角合成是一个极具挑战性的问题。现有的方法难以同时实现高分辨率、照片级真实感的结果、实时渲染以及紧凑的存储。尤其是在处理复杂的动态场景时,计算量和存储需求会显著增加,限制了其应用。
核心思路:本文的核心思路是使用时空高斯来表示动态场景,并利用神经特征进行渲染。通过将3D高斯扩展到时空域,可以有效地建模场景中的动态和瞬态内容。同时,使用神经特征代替传统的球谐函数,可以在保持模型大小的同时,更好地捕捉视角和时间相关的外观变化。
技术框架:该方法主要包含三个阶段:1) 时空高斯表示:使用时间不透明度和参数化运动/旋转增强3D高斯,构建时空高斯。2) 溅射特征渲染:使用神经特征代替球谐函数进行渲染,从而建模视角和时间相关的外观。3) 高斯采样:利用训练误差和粗略深度指导,在难以收敛的区域采样新的高斯。
关键创新:该方法最重要的创新点在于提出了时空高斯特征溅射,将3D高斯扩展到时空域,并使用神经特征进行渲染。与现有方法相比,该方法能够更好地建模动态场景,并在渲染质量、速度和存储方面取得更好的平衡。传统方法通常使用体渲染或网格等表示,难以同时满足实时性和高质量的要求。
关键设计:在时空高斯表示中,使用了时间不透明度来控制高斯在不同时间点的可见性,并使用参数化运动/旋转来建模高斯的运动轨迹。在溅射特征渲染中,使用了多层感知机(MLP)来学习神经特征,从而捕捉视角和时间相关的外观变化。损失函数包括渲染损失和深度损失,用于优化高斯参数和神经特征。
📊 实验亮点
实验结果表明,该方法在多个真实世界数据集上取得了最先进的渲染质量和速度。例如,在8K分辨率下,轻量级模型可以在Nvidia RTX 4090 GPU上以60 FPS的速度渲染。与现有方法相比,该方法在渲染质量和速度上均有显著提升,同时保持了紧凑的存储。
🎯 应用场景
该研究成果可广泛应用于虚拟现实、增强现实、游戏开发、电影制作等领域。例如,可以用于创建逼真的虚拟角色和环境,实现沉浸式的交互体验。此外,该方法还可以用于动态场景的重建和编辑,为内容创作提供新的工具和方法。未来,该技术有望在自动驾驶、机器人导航等领域发挥重要作用。
📄 摘要(原文)
Novel view synthesis of dynamic scenes has been an intriguing yet challenging problem. Despite recent advancements, simultaneously achieving high-resolution photorealistic results, real-time rendering, and compact storage remains a formidable task. To address these challenges, we propose Spacetime Gaussian Feature Splatting as a novel dynamic scene representation, composed of three pivotal components. First, we formulate expressive Spacetime Gaussians by enhancing 3D Gaussians with temporal opacity and parametric motion/rotation. This enables Spacetime Gaussians to capture static, dynamic, as well as transient content within a scene. Second, we introduce splatted feature rendering, which replaces spherical harmonics with neural features. These features facilitate the modeling of view- and time-dependent appearance while maintaining small size. Third, we leverage the guidance of training error and coarse depth to sample new Gaussians in areas that are challenging to converge with existing pipelines. Experiments on several established real-world datasets demonstrate that our method achieves state-of-the-art rendering quality and speed, while retaining compact storage. At 8K resolution, our lite-version model can render at 60 FPS on an Nvidia RTX 4090 GPU. Our code is available at https://github.com/oppo-us-research/SpacetimeGaussians.