GS^3: Efficient Relighting with Triple Gaussian Splatting
作者: Zoubin Bi, Yixin Zeng, Chong Zeng, Fan Pei, Xiang Feng, Kun Zhou, Hongzhi Wu
分类: cs.CV, cs.GR
发布日期: 2024-10-15
备注: Accepted to SIGGRAPH Asia 2024. Project page: https://gsrelight.github.io/
期刊: ACM SIGGRAPH Asia 2024 Conference Papers
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于三高斯溅射的GS^3方法,实现高效高质量的重光照渲染。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 重光照渲染 高斯溅射 神经渲染 实时渲染 光照建模
📋 核心要点
- 现有方法难以兼顾复杂几何和材质下的实时重光照渲染,尤其是在自阴影和全局光照效果方面。
- GS^3方法利用空间和角度高斯表示,结合三重溅射过程,高效地建模光照传输和表面反射特性。
- 实验表明,GS^3在多种数据集上实现了高质量的重光照渲染,训练时间40-70分钟,渲染速度90fps。
📝 摘要(中文)
本文提出了一种基于空间和角度高斯表示以及三重溅射过程的方法,用于从多视角点光源输入图像中进行实时、高质量的新光照和视角合成。为了描述复杂的表面外观,我们为每个空间高斯采用Lambertian模型加上角度高斯混合模型作为有效的反射函数。为了生成自阴影,我们将所有空间高斯向光源溅射以获得阴影值,并通过一个小型多层感知器进一步细化。为了补偿全局光照等其他效果,训练另一个网络来计算并添加每个空间高斯的RGB元组。我们在30个样本上验证了我们表示的有效性,这些样本在几何形状(从实体到蓬松)和外观(从半透明到各向异性)方面差异很大,并且使用了不同形式的输入数据,包括合成/重建对象的渲染图像、用手持相机和闪光灯拍摄的照片,或来自专业光场的数据。我们实现了40-70分钟的训练时间和在单个商用GPU上的90 fps的渲染速度。我们的结果在质量/性能方面与最先进的技术相比具有优势。我们的代码和数据可在https://GSrelight.github.io/公开获取。
🔬 方法详解
问题定义:论文旨在解决从多视角图像中进行高质量、实时的重光照渲染问题。现有方法在处理复杂几何形状和材质时,难以达到实时渲染速度,并且在自阴影和全局光照效果的建模上存在不足,导致渲染质量下降。
核心思路:论文的核心思路是使用空间和角度高斯表示来建模场景的几何和光照属性。通过将场景表示为一组空间高斯分布,并为每个高斯分布关联一个反射函数(Lambertian + 角度高斯混合),可以有效地捕捉复杂的外观。三重溅射过程用于生成自阴影,并使用神经网络来补偿全局光照等效果。
技术框架:GS^3方法包含以下主要模块:1) 空间和角度高斯表示:使用空间高斯分布表示场景几何,并为每个高斯分布关联一个反射函数。2) 三重溅射:将空间高斯向光源溅射以生成阴影值。3) 阴影细化网络:使用小型MLP细化阴影值。4) 全局光照补偿网络:使用另一个网络计算并添加每个空间高斯的RGB元组,以补偿全局光照等效果。
关键创新:GS^3的关键创新在于其空间和角度高斯表示以及三重溅射过程。与传统的基于网格或体素的方法相比,高斯表示更加灵活和高效,能够更好地捕捉复杂几何形状和材质。三重溅射过程能够有效地生成自阴影,而无需进行复杂的射线追踪计算。
关键设计:论文使用Lambertian模型加上角度高斯混合模型作为反射函数。阴影细化网络是一个小型多层感知器,用于细化溅射得到的阴影值。全局光照补偿网络也是一个小型多层感知器,用于预测每个空间高斯的RGB元组。损失函数包括渲染图像的L1损失和感知损失,以及阴影损失。
🖼️ 关键图片
📊 实验亮点
GS^3方法在多个数据集上进行了评估,包括合成数据、重建对象和真实照片。实验结果表明,GS^3方法在质量和性能方面均优于现有方法。例如,GS^3方法可以在单个商用GPU上实现90 fps的渲染速度,同时保持高质量的渲染效果。训练时间为40-70分钟。
🎯 应用场景
GS^3方法可应用于虚拟现实、增强现实、游戏开发等领域,实现逼真的光照效果和交互体验。例如,在虚拟现实中,用户可以实时改变场景的光照条件,观察物体在不同光照下的外观变化。在游戏开发中,可以利用GS^3方法生成高质量的动态光照效果,提升游戏的视觉体验。
📄 摘要(原文)
We present a spatial and angular Gaussian based representation and a triple splatting process, for real-time, high-quality novel lighting-and-view synthesis from multi-view point-lit input images. To describe complex appearance, we employ a Lambertian plus a mixture of angular Gaussians as an effective reflectance function for each spatial Gaussian. To generate self-shadow, we splat all spatial Gaussians towards the light source to obtain shadow values, which are further refined by a small multi-layer perceptron. To compensate for other effects like global illumination, another network is trained to compute and add a per-spatial-Gaussian RGB tuple. The effectiveness of our representation is demonstrated on 30 samples with a wide variation in geometry (from solid to fluffy) and appearance (from translucent to anisotropic), as well as using different forms of input data, including rendered images of synthetic/reconstructed objects, photographs captured with a handheld camera and a flash, or from a professional lightstage. We achieve a training time of 40-70 minutes and a rendering speed of 90 fps on a single commodity GPU. Our results compare favorably with state-of-the-art techniques in terms of quality/performance. Our code and data are publicly available at https://GSrelight.github.io/.