GEMM-GS: Accelerating 3D Gaussian Splatting on Tensor Cores with GEMM-Compatible Blending

作者: Haomin Li, Bowen Zhu, Fangxin Liu, Zongwu Wang, Xinran Liang, Li Jiang, Haibing Guan

分类: cs.AR, cs.GR

发布日期: 2026-04-02

备注: Accepted by the 63rd Design Automation Conference (DAC 2026)

🔗 代码/项目: GITHUB

💡 一句话要点

GEMM-GS：利用GEMM兼容的混合加速3D高斯溅射在张量核心上的渲染。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 神经辐射场 张量核心 GPU加速 实时渲染 GEMM CUDA内核

📋 核心要点

3DGS虽然提升了NeRF的渲染速度，但仍难以满足实时需求，且未充分利用GPU的张量核心。
GEMM-GS通过将3DGS的混合过程转化为GEMM兼容的形式，从而能够利用GPU的张量核心进行加速。
实验结果表明，GEMM-GS相比原始3DGS实现了显著的加速，并能与现有加速方法结合进一步提升性能。

📝 摘要（中文）

神经辐射场(NeRF)能够从多个2D图像中重建3D场景，但由于其点采样设计，导致渲染延迟较高。3D高斯溅射(3DGS)通过显式的场景表示和优化的管线改进了NeRF，但仍然无法满足实际的实时需求。现有的加速工作忽略了现代GPU不断发展的张量核心，因为3DGS管线缺乏通用矩阵乘法(GEMM)操作。本文提出了GEMM-GS，一种利用GPU上张量核心的加速方法，通过GEMM友好的混合变换。它将3DGS混合过程等价地重新表述为GEMM兼容的形式，以利用张量核心。设计了一个高性能CUDA内核，集成了三阶段双缓冲流水线，重叠计算和内存访问。大量实验表明，GEMM-GS比原始3DGS实现了1.42倍的加速，并且在与现有加速方法结合使用时，平均提供了额外的1.47倍的加速。代码已在https://github.com/shieldforever/GEMM-GS上发布。

🔬 方法详解

问题定义：现有的3D高斯溅射(3DGS)方法虽然在渲染速度上优于神经辐射场(NeRF)，但仍然无法达到实时渲染的需求，尤其是在高分辨率场景下。此外，现有的加速方法未能充分利用现代GPU中的张量核心，因为3DGS的渲染管线中缺乏与通用矩阵乘法(GEMM)兼容的操作，限制了其在张量核心上的高效执行。

核心思路：GEMM-GS的核心思路是将3DGS的混合过程重新表述为GEMM兼容的形式。通过这种转换，可以将原本不适合在张量核心上执行的混合操作，转化为高效的矩阵乘法运算，从而充分利用张量核心的并行计算能力，实现渲染加速。这样设计的目的是为了弥补现有方法在利用GPU硬件加速方面的不足。

技术框架：GEMM-GS的技术框架主要包含以下几个阶段：首先，对3DGS的混合过程进行数学上的等价转换，将其转化为GEMM兼容的形式。然后，设计一个高性能的CUDA内核，该内核集成了三阶段双缓冲流水线，用于重叠计算和内存访问，从而进一步提高效率。最后，将转换后的GEMM操作和优化的CUDA内核集成到3DGS的渲染管线中。

关键创新：GEMM-GS最关键的创新点在于将3DGS的混合过程转化为GEMM兼容的形式。这种转换使得原本不适合在张量核心上执行的操作，能够以矩阵乘法的形式高效地执行。与现有方法相比，GEMM-GS能够更好地利用GPU的硬件加速能力，从而实现更高的渲染速度。

关键设计：GEMM-GS的关键设计包括：1) GEMM兼容的混合变换的具体数学公式，确保变换的等价性和计算效率；2) 高性能CUDA内核的设计，包括三阶段双缓冲流水线的具体实现，以及内存访问模式的优化；3) 如何将转换后的GEMM操作无缝集成到现有的3DGS渲染管线中，并保持渲染质量。

🖼️ 关键图片

📊 实验亮点

GEMM-GS在实验中取得了显著的性能提升。与原始3DGS相比，GEMM-GS实现了1.42倍的加速。更重要的是，当GEMM-GS与现有的加速方法结合使用时，平均可以提供额外的1.47倍的加速。这些结果表明，GEMM-GS能够有效地利用GPU的张量核心，从而显著提高3DGS的渲染速度。

🎯 应用场景

GEMM-GS的潜在应用领域包括虚拟现实(VR)、增强现实(AR)、游戏开发、自动驾驶和机器人等。通过提高3D场景的渲染速度，GEMM-GS可以为这些应用提供更流畅、更逼真的用户体验。此外，该研究还可以促进实时3D重建和渲染技术的发展，为未来的3D应用提供更强大的技术支持。

📄 摘要（原文）

Neural Radiance Fields (NeRF) enables 3D scene reconstruction from several 2D images but incurs high rendering latency via its point-sampling design. 3D Gaussian Splatting (3DGS) improves on NeRF with explicit scene representation and an optimized pipeline yet still fails to meet practical real-time demands. Existing acceleration works overlook the evolving Tensor Cores of modern GPUs because 3DGS pipeline lacks General Matrix Multiplication (GEMM) operations. This paper proposes GEMM-GS, an acceleration approach utilizing tensor cores on GPUs via GEMM-friendly blending transformation. It equivalently reformulates the 3DGS blending process into a GEMM-compatible form to utilize Tensor Cores. A high-performance CUDA kernel is designed, integrating a three-stage double-buffered pipeline that overlaps computation and memory access. Extensive experiments show that GEMM-GS achieves $1.42\times$ speedup over vanilla 3DGS and provides an additional $1.47\times$ speedup on average when combining with existing acceleration approaches. Code is released at https://github.com/shieldforever/GEMM-GS.

GEMM-GS: Accelerating 3D Gaussian Splatting on Tensor Cores with GEMM-Compatible Blending

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理