GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views

📄 arXiv: 2411.11363v1 📥 PDF

作者: Boyao Zhou, Shunyuan Zheng, Hanzhang Tu, Ruizhi Shao, Boning Liu, Shengping Zhang, Liqiang Nie, Yebin Liu

分类: cs.CV

发布日期: 2024-11-18

备注: Journal extension of CVPR 2024,Project page:https://yaourtb.github.io/GPS-Gaussian+


💡 一句话要点

提出GPS-Gaussian+,一种可泛化的像素级3D高斯溅射方法,用于从稀疏视角实时渲染人与场景。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 自由视点视频 可泛化渲染 实时渲染 人与场景渲染

📋 核心要点

  1. 现有基于高斯溅射或神经隐式表达的自由视点视频合成方法通常需要针对每个对象进行优化,无法满足交互式应用中的实时渲染需求。
  2. 论文提出一种可泛化的高斯溅射方法,通过在源视图上回归高斯参数,直接合成新视角,避免了耗时的逐对象优化。
  3. 实验结果表明,该方法在多个数据集上优于现有技术,并且实现了极高的渲染速度,更适合实时应用。

📝 摘要(中文)

本文提出了一种可泛化的高斯溅射方法,用于在稀疏视角相机设置下进行高分辨率图像渲染,以实现人物自由视点视频合成。该方法定义了源视图上的高斯参数图,并直接回归高斯属性,无需任何微调或优化即可实现即时新视角合成。高斯参数回归模块在仅有人物数据或人物-场景数据上进行训练,并结合深度估计模块将2D参数图提升到3D空间。该框架完全可微,支持深度和渲染监督或仅渲染监督。此外,引入了正则化项和极线注意力机制,以保持两个源视图之间的几何一致性,尤其是在忽略深度监督时。在多个数据集上的实验表明,该方法优于现有技术,同时实现了极高的渲染速度。

🔬 方法详解

问题定义:现有基于高斯溅射或神经隐式表达的自由视点视频合成方法,通常需要针对每个对象进行单独优化,这限制了它们在需要实时渲染的交互式应用中的应用。这些方法难以在稀疏视角下,快速且高质量地渲染人与场景的复杂交互。

核心思路:论文的核心思路是学习一个可泛化的高斯参数回归模块,该模块可以直接从源视图的图像中预测高斯分布的参数。通过这种方式,避免了对每个新场景或新人物进行耗时的优化过程,从而实现了实时渲染。

技术框架:该框架包含以下主要模块:1) 高斯参数回归模块:用于从源视图图像中回归高斯参数图。2) 深度估计模块:用于将2D高斯参数图提升到3D空间。3) 高斯溅射渲染模块:用于将3D高斯分布渲染成新视角的图像。整个框架是端到端可微的,可以使用深度和渲染监督或仅渲染监督进行训练。

关键创新:该方法最重要的创新点在于其可泛化性。通过直接回归高斯参数,避免了对每个场景或人物进行单独优化,从而实现了实时渲染。此外,引入了正则化项和极线注意力机制,以增强在缺乏深度监督情况下的几何一致性。

关键设计:1) 高斯参数回归模块使用卷积神经网络实现,输入是源视图图像,输出是高斯分布的参数图(如位置、协方差、颜色等)。2) 深度估计模块也使用卷积神经网络实现,用于预测每个像素的深度值。3) 损失函数包括渲染损失(衡量渲染图像与真实图像的差异)、深度损失(衡量预测深度与真实深度的差异,可选)以及正则化损失(用于约束高斯参数的分布)。4) 极线注意力机制用于在两个源视图之间建立对应关系,从而增强几何一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个数据集上优于现有技术,包括在渲染质量和渲染速度方面。具体来说,该方法在保持甚至提高渲染质量的同时,实现了比现有方法快几个数量级的渲染速度。例如,在某个数据集上,该方法实现了超过30 FPS的渲染速度,而现有方法只能达到几FPS。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏、远程会议等领域。例如,在虚拟现实游戏中,可以利用该技术实时渲染玩家的虚拟形象与游戏场景的交互,提升沉浸感。在远程会议中,可以实现高质量的自由视点视频通信,增强沟通效果。该技术还有潜力应用于电影制作、动画制作等领域,提高内容创作效率。

📄 摘要(原文)

Differentiable rendering techniques have recently shown promising results for free-viewpoint video synthesis of characters. However, such methods, either Gaussian Splatting or neural implicit rendering, typically necessitate per-subject optimization which does not meet the requirement of real-time rendering in an interactive application. We propose a generalizable Gaussian Splatting approach for high-resolution image rendering under a sparse-view camera setting. To this end, we introduce Gaussian parameter maps defined on the source views and directly regress Gaussian properties for instant novel view synthesis without any fine-tuning or optimization. We train our Gaussian parameter regression module on human-only data or human-scene data, jointly with a depth estimation module to lift 2D parameter maps to 3D space. The proposed framework is fully differentiable with both depth and rendering supervision or with only rendering supervision. We further introduce a regularization term and an epipolar attention mechanism to preserve geometry consistency between two source views, especially when neglecting depth supervision. Experiments on several datasets demonstrate that our method outperforms state-of-the-art methods while achieving an exceeding rendering speed.