QUEEN: QUantized Efficient ENcoding of Dynamic Gaussians for Streaming Free-viewpoint Videos

📄 arXiv: 2412.04469v1 📥 PDF

作者: Sharath Girish, Tianye Li, Amrita Mazumdar, Abhinav Shrivastava, David Luebke, Shalini De Mello

分类: cs.CV, cs.AI

发布日期: 2024-12-05

备注: Accepted at NeurIPS 2024, Project website: https://research.nvidia.com/labs/amri/projects/queen


💡 一句话要点

提出QUEEN框架以解决在线自由视角视频流传输问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自由视角视频 高斯编码 量化技术 动态场景 实时渲染 视频流传输 稀疏学习

📋 核心要点

  1. 现有的在线自由视角视频流传输方法面临增量更新、快速训练和小内存占用等多重挑战,尚未得到有效解决。
  2. 本文提出的QUEEN框架通过直接学习连续帧的高斯属性残差,避免了结构约束,从而实现高质量的重建和泛化能力。
  3. 在多项FVV基准测试中,QUEEN在所有指标上均超越了现有方法,尤其在动态场景中模型大小仅为每帧0.7MB,训练时间不足5秒,渲染速度达到350 FPS。

📝 摘要(中文)

在线自由视角视频(FVV)流传输是一项具有挑战性的任务,尚未得到充分探索。该任务需要对体积表示进行增量更新,快速训练和渲染以满足实时性要求,并且需要小内存占用以实现高效传输。为此,本文提出了一种新颖的量化高效编码框架(QUEEN),利用3D高斯点云(3D-GS)进行FVV流传输。QUEEN直接学习连续帧之间的高斯属性残差,无需对其施加结构约束,从而实现高质量重建和良好的泛化能力。为有效存储残差,本文进一步提出了一种量化稀疏框架,包含一个学习的潜在解码器和一个学习的门控模块。实验结果表明,QUEEN在多种FVV基准测试中超越了现有的在线FVV方法。

🔬 方法详解

问题定义:本文旨在解决在线自由视角视频流传输中的增量更新、快速训练和小内存占用等问题。现有方法在处理动态场景时表现不佳,难以满足实时性要求。

核心思路:QUEEN框架的核心思想是直接学习连续帧之间的高斯属性残差,而不施加结构约束,从而提高重建质量和泛化能力。通过量化和稀疏化处理,进一步优化存储效率。

技术框架:QUEEN的整体架构包括高斯属性残差学习模块、量化模块和稀疏化模块。高斯属性残差学习模块负责捕捉动态内容,量化模块则通过学习的潜在解码器对残差进行有效量化,稀疏化模块通过学习的门控机制优化位置残差的存储。

关键创新:QUEEN的主要创新在于其量化稀疏框架,能够有效地处理动态场景中的高斯属性残差,显著降低模型大小并提高训练和渲染速度。这一方法与现有技术相比,具有更高的灵活性和效率。

关键设计:在设计中,QUEEN使用了学习的潜在解码器和门控模块,以实现对高斯位置和属性残差的高效量化和稀疏化。此外,采用高斯视空间梯度差向量作为信号,帮助分离静态和动态内容,提升训练效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

QUEEN在多项FVV基准测试中表现优异,所有指标均超越现有在线FVV方法。特别是在处理动态场景时,QUEEN将模型大小压缩至每帧仅0.7MB,训练时间不足5秒,渲染速度达到350 FPS,显示出显著的性能提升。

🎯 应用场景

该研究的潜在应用领域包括3D视频会议、实时体积视频广播等新兴应用,能够显著提升用户体验。随着技术的进步,QUEEN框架有望在虚拟现实、增强现实等领域发挥重要作用,推动相关技术的发展和应用。

📄 摘要(原文)

Online free-viewpoint video (FVV) streaming is a challenging problem, which is relatively under-explored. It requires incremental on-the-fly updates to a volumetric representation, fast training and rendering to satisfy real-time constraints and a small memory footprint for efficient transmission. If achieved, it can enhance user experience by enabling novel applications, e.g., 3D video conferencing and live volumetric video broadcast, among others. In this work, we propose a novel framework for QUantized and Efficient ENcoding (QUEEN) for streaming FVV using 3D Gaussian Splatting (3D-GS). QUEEN directly learns Gaussian attribute residuals between consecutive frames at each time-step without imposing any structural constraints on them, allowing for high quality reconstruction and generalizability. To efficiently store the residuals, we further propose a quantization-sparsity framework, which contains a learned latent-decoder for effectively quantizing attribute residuals other than Gaussian positions and a learned gating module to sparsify position residuals. We propose to use the Gaussian viewspace gradient difference vector as a signal to separate the static and dynamic content of the scene. It acts as a guide for effective sparsity learning and speeds up training. On diverse FVV benchmarks, QUEEN outperforms the state-of-the-art online FVV methods on all metrics. Notably, for several highly dynamic scenes, it reduces the model size to just 0.7 MB per frame while training in under 5 sec and rendering at 350 FPS. Project website is at https://research.nvidia.com/labs/amri/projects/queen