GEMM-GS: Accelerating 3D Gaussian Splatting on Tensor Cores with GEMM-Compatible Blending
作者: Haomin Li, Bowen Zhu, Fangxin Liu, Zongwu Wang, Xinran Liang, Li Jiang, Haibing Guan
分类: cs.AR, cs.GR
发布日期: 2026-04-02
备注: Accepted by the 63rd Design Automation Conference (DAC 2026)
🔗 代码/项目: GITHUB
💡 一句话要点
GEMM-GS:利用GEMM兼容的混合加速3D高斯溅射在张量核心上的渲染。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 神经辐射场 张量核心 GPU加速 实时渲染 GEMM CUDA内核
📋 核心要点
- 3DGS虽然提升了NeRF的渲染速度,但仍难以满足实时需求,且未充分利用GPU的张量核心。
- GEMM-GS通过将3DGS的混合过程转化为GEMM兼容的形式,从而能够利用GPU的张量核心进行加速。
- 实验结果表明,GEMM-GS相比原始3DGS实现了显著的加速,并能与现有加速方法结合进一步提升性能。
📝 摘要(中文)
神经辐射场(NeRF)能够从多个2D图像中重建3D场景,但由于其点采样设计,导致渲染延迟较高。3D高斯溅射(3DGS)通过显式的场景表示和优化的管线改进了NeRF,但仍然无法满足实际的实时需求。现有的加速工作忽略了现代GPU不断发展的张量核心,因为3DGS管线缺乏通用矩阵乘法(GEMM)操作。本文提出了GEMM-GS,一种利用GPU上张量核心的加速方法,通过GEMM友好的混合变换。它将3DGS混合过程等价地重新表述为GEMM兼容的形式,以利用张量核心。设计了一个高性能CUDA内核,集成了三阶段双缓冲流水线,重叠计算和内存访问。大量实验表明,GEMM-GS比原始3DGS实现了1.42倍的加速,并且在与现有加速方法结合使用时,平均提供了额外的1.47倍的加速。代码已在https://github.com/shieldforever/GEMM-GS上发布。
🔬 方法详解
问题定义:现有的3D高斯溅射(3DGS)方法虽然在渲染速度上优于神经辐射场(NeRF),但仍然无法达到实时渲染的需求,尤其是在高分辨率场景下。此外,现有的加速方法未能充分利用现代GPU中的张量核心,因为3DGS的渲染管线中缺乏与通用矩阵乘法(GEMM)兼容的操作,限制了其在张量核心上的高效执行。
核心思路:GEMM-GS的核心思路是将3DGS的混合过程重新表述为GEMM兼容的形式。通过这种转换,可以将原本不适合在张量核心上执行的混合操作,转化为高效的矩阵乘法运算,从而充分利用张量核心的并行计算能力,实现渲染加速。这样设计的目的是为了弥补现有方法在利用GPU硬件加速方面的不足。
技术框架:GEMM-GS的技术框架主要包含以下几个阶段:首先,对3DGS的混合过程进行数学上的等价转换,将其转化为GEMM兼容的形式。然后,设计一个高性能的CUDA内核,该内核集成了三阶段双缓冲流水线,用于重叠计算和内存访问,从而进一步提高效率。最后,将转换后的GEMM操作和优化的CUDA内核集成到3DGS的渲染管线中。
关键创新:GEMM-GS最关键的创新点在于将3DGS的混合过程转化为GEMM兼容的形式。这种转换使得原本不适合在张量核心上执行的操作,能够以矩阵乘法的形式高效地执行。与现有方法相比,GEMM-GS能够更好地利用GPU的硬件加速能力,从而实现更高的渲染速度。
关键设计:GEMM-GS的关键设计包括:1) GEMM兼容的混合变换的具体数学公式,确保变换的等价性和计算效率;2) 高性能CUDA内核的设计,包括三阶段双缓冲流水线的具体实现,以及内存访问模式的优化;3) 如何将转换后的GEMM操作无缝集成到现有的3DGS渲染管线中,并保持渲染质量。
🖼️ 关键图片
📊 实验亮点
GEMM-GS在实验中取得了显著的性能提升。与原始3DGS相比,GEMM-GS实现了1.42倍的加速。更重要的是,当GEMM-GS与现有的加速方法结合使用时,平均可以提供额外的1.47倍的加速。这些结果表明,GEMM-GS能够有效地利用GPU的张量核心,从而显著提高3DGS的渲染速度。
🎯 应用场景
GEMM-GS的潜在应用领域包括虚拟现实(VR)、增强现实(AR)、游戏开发、自动驾驶和机器人等。通过提高3D场景的渲染速度,GEMM-GS可以为这些应用提供更流畅、更逼真的用户体验。此外,该研究还可以促进实时3D重建和渲染技术的发展,为未来的3D应用提供更强大的技术支持。
📄 摘要(原文)
Neural Radiance Fields (NeRF) enables 3D scene reconstruction from several 2D images but incurs high rendering latency via its point-sampling design. 3D Gaussian Splatting (3DGS) improves on NeRF with explicit scene representation and an optimized pipeline yet still fails to meet practical real-time demands. Existing acceleration works overlook the evolving Tensor Cores of modern GPUs because 3DGS pipeline lacks General Matrix Multiplication (GEMM) operations. This paper proposes GEMM-GS, an acceleration approach utilizing tensor cores on GPUs via GEMM-friendly blending transformation. It equivalently reformulates the 3DGS blending process into a GEMM-compatible form to utilize Tensor Cores. A high-performance CUDA kernel is designed, integrating a three-stage double-buffered pipeline that overlaps computation and memory access. Extensive experiments show that GEMM-GS achieves $1.42\times$ speedup over vanilla 3DGS and provides an additional $1.47\times$ speedup on average when combining with existing acceleration approaches. Code is released at https://github.com/shieldforever/GEMM-GS.