Accelerating 3D Gaussian Splatting using Tensor Cores

📄 arXiv: 2605.17855v1 📥 PDF

作者: Sheng Li, Yang Sui, Yue Wu, Zhuoran Song, Bo Yuan, Xulong Tang, Yue Dai

分类: cs.GR

发布日期: 2026-05-18


💡 一句话要点

TensorGS:利用Tensor Core加速3D高斯溅射,提升实时渲染性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 神经渲染 实时渲染 Tensor Core GPU加速 光栅化 跨瓦片分组

📋 核心要点

  1. 现有3DGS光栅化阶段计算量大,且在CUDA核心上执行,未能充分利用GPU的Tensor Core加速能力。
  2. TensorGS通过将光栅化计算转化为Tensor Core兼容的矩阵运算,并引入跨瓦片分组来提高高斯重用率。
  3. 实验结果表明,TensorGS在保持图像质量的前提下,端到端渲染性能提升了1.65倍。

📝 摘要(中文)

3D高斯溅射(3DGS)已成为实时神经渲染和3D场景重建的主流技术,但其渲染成本对于许多对延迟敏感的场景来说仍然过高。特别是,3DGS中的光栅化阶段占据了端到端渲染时间的大部分,在此阶段,渲染器重复评估每个高斯对每个覆盖像素的贡献,使得该阶段成为计算密集型。同时,现代GPU为低精度矩阵运算提供高吞吐量的Tensor Core,但现有的3DGS系统完全在CUDA核心上执行光栅化,使Tensor Core处于空闲状态。我们发现3DGS渲染可以在FP16精度下执行,而图像质量的下降可以忽略不计,这为Tensor Core加速提供了一个有希望的机会。然而,利用Tensor Core进行3DGS并非易事,因为光栅化与它们的执行模型并不自然匹配。现有的3DGS光栅化被表示为不规则的逐像素标量运算,而Tensor Core需要密集的、规则的、且具有高重用率的矩阵工作负载。此外,传统的逐瓦片执行无法利用相邻瓦片之间的高斯重用,导致重复的数据加载,从而产生高数据移动开销。为此,我们提出了TensorGS,一个使用Tensor Core的3DGS加速框架。TensorGS将主要的光栅化计算张量化为与Tensor Core兼容的矩阵运算,并引入跨瓦片分组以提高高斯重用率,分摊开销,并提高Tensor Core的利用率。实验结果表明,TensorGS在保持图像质量的同时,将端到端渲染性能提高了1.65倍。

🔬 方法详解

问题定义:3D高斯溅射(3DGS)在实时渲染中表现出色,但其光栅化过程计算量大,成为性能瓶颈。现有方法主要在CUDA核心上执行光栅化,未能有效利用现代GPU中高性能的Tensor Core,导致硬件资源浪费。此外,传统逐瓦片的光栅化方式,高斯参数在相邻瓦片间重复加载,造成额外的数据传输开销。

核心思路:TensorGS的核心在于将3DGS光栅化过程转化为Tensor Core擅长的矩阵运算。通过将像素和高斯参数组织成矩阵形式,利用Tensor Core进行高效的矩阵乘法和累加操作,从而加速渲染过程。同时,引入跨瓦片分组策略,在高斯参数加载后,尽可能在多个相邻瓦片中复用,减少数据传输量。

技术框架:TensorGS框架主要包含以下几个阶段:1) 数据准备:将高斯参数和像素坐标进行预处理,组织成适合Tensor Core运算的矩阵形式。2) 跨瓦片分组:将相邻的瓦片进行分组,以便在高斯参数加载后,在组内的多个瓦片中复用。3) Tensor Core加速光栅化:利用Tensor Core执行矩阵乘法和累加操作,计算每个高斯对每个像素的贡献。4) 结果融合:将各个高斯的贡献进行融合,得到最终的像素颜色值。

关键创新:TensorGS的关键创新在于:1) 将3DGS光栅化过程转化为Tensor Core兼容的矩阵运算,充分利用了GPU的硬件加速能力。2) 引入跨瓦片分组策略,在高斯参数加载后,尽可能在多个相邻瓦片中复用,减少了数据传输量。与现有方法相比,TensorGS能够更有效地利用GPU资源,从而实现更高的渲染性能。

关键设计:TensorGS的关键设计包括:1) 数据排布方式:精心设计了高斯参数和像素坐标在矩阵中的排布方式,以最大化Tensor Core的利用率。2) 分组策略:采用启发式算法,根据场景的几何结构和高斯分布情况,动态调整瓦片分组的大小和形状,以实现最佳的高斯重用率。3) FP16精度:在保证图像质量的前提下,采用FP16精度进行计算,进一步提升Tensor Core的运算速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TensorGS通过将3DGS光栅化过程转化为Tensor Core兼容的矩阵运算,并引入跨瓦片分组策略,显著提高了渲染性能。实验结果表明,TensorGS在保持图像质量的前提下,端到端渲染性能提升了1.65倍。这一提升使得3DGS技术能够更好地应用于对延迟敏感的场景。

🎯 应用场景

TensorGS具有广泛的应用前景,可用于实时渲染、虚拟现实、增强现实、游戏开发等领域。通过提高渲染性能,TensorGS能够为用户提供更流畅、更逼真的视觉体验。此外,TensorGS还可以应用于3D场景重建、机器人导航等领域,为这些应用提供更高效的计算支持。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) has become a leading technique for real-time neural rendering and 3D scene reconstruction, but its rendering cost remains too high for many latency-sensitive scenarios. In particular, the rasterization stage in 3DGS dominates end-to-end rendering time, during which the renderer repeatedly evaluates each Gaussian's contribution to each covered pixel, making this stage compute-bound. At the same time, modern GPUs provide high-throughput Tensor Cores for low-precision matrix operations, yet existing 3DGS systems execute rasterization entirely on CUDA cores and leave Tensor Cores idle. We find that 3DGS rendering can be executed in FP16 with negligible quality degradation, suggesting a promising opportunity for Tensor Core acceleration. However, exploiting Tensor Cores for 3DGS is non-trivial because rasterization does not naturally match their execution model. Existing 3DGS rasterization is expressed as irregular per-pixel scalar operations, whereas Tensor Cores require dense, regular, and reuse-rich matrix workloads. Moreover, conventional tile-by-tile execution fails to exploit Gaussian reuse across neighboring tiles, resulting in repeated data loading and thus high data movement overhead. To this end, we present TensorGS, a 3DGS acceleration framework using Tensor Cores. TensorGS tensorizes the dominant rasterization computation into Tensor-Core-compatible matrix operations and introduces cross-tile grouping to improve Gaussian reuse, amortize overhead, and increase Tensor Core utilization. Experimental results show that TensorGS improves end-to-end rendering performance by 1.65$\times$ while preserving image quality.