Neo: Real-Time On-Device 3D Gaussian Splatting with Reuse-and-Update Sorting Acceleration

📄 arXiv: 2511.12930v1 📥 PDF

作者: Changhun Oh, Seongryong Oh, Jinwoo Hwang, Yoonsung Kim, Hardik Sharma, Jongse Park

分类: cs.AR, cs.CV

发布日期: 2025-11-17


💡 一句话要点

Neo:基于重用-更新排序加速的实时端侧3D高斯溅射

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 3D高斯溅射 实时渲染 端侧加速 排序算法 硬件加速器

📋 核心要点

  1. 现有3DGS方案在资源受限设备上实时渲染时,尤其在高分辨率下,难以达到高帧率,排序阶段是主要瓶颈。
  2. Neo提出重用-更新排序算法,利用连续帧间高斯排序的时间冗余,并设计硬件加速器优化该算法。
  3. 实验表明,Neo比现有边缘GPU和ASIC方案吞吐量分别高10倍和5.6倍,DRAM流量减少94.5%和81.3%。

📝 摘要(中文)

在资源受限的设备上实时渲染3D高斯溅射(3DGS)对于提供沉浸式增强现实和虚拟现实(AR/VR)体验至关重要。然而,现有的解决方案难以实现高帧率,尤其是在高分辨率渲染下。我们的分析表明,3DGS渲染管线中的排序阶段是主要瓶颈,因为它需要很高的内存带宽。本文提出了Neo,它引入了一种重用-更新排序算法,该算法利用连续帧之间高斯排序的时间冗余,并设计了一个针对该算法优化的硬件加速器。通过有效地跟踪和更新高斯深度排序,而不是从头开始重新排序,Neo显著减少了冗余计算和内存带宽压力。实验结果表明,Neo的吞吐量比最先进的边缘GPU和ASIC解决方案分别高出10.0倍和5.6倍,同时DRAM流量减少了94.5%和81.3%。这些改进使得高质量和低延迟的端侧3D渲染更加实用。

🔬 方法详解

问题定义:论文旨在解决在资源受限的设备上实时渲染3D高斯溅射(3DGS)时,由于排序阶段的高内存带宽需求而导致的性能瓶颈问题。现有方法通常需要对每一帧的高斯进行完全排序,这导致了大量的冗余计算和内存访问,限制了渲染帧率,尤其是在高分辨率下。

核心思路:Neo的核心思路是利用连续帧之间高斯排序的时间冗余性。由于场景变化通常是渐进的,因此相邻帧之间高斯深度的相对顺序往往保持不变。Neo通过跟踪和更新高斯深度排序,而不是每帧都从头开始重新排序,从而减少了冗余计算和内存带宽压力。

技术框架:Neo的整体框架包括一个重用-更新排序算法和一个硬件加速器。该算法首先重用上一帧的排序结果,然后仅更新那些深度顺序发生变化的高斯。硬件加速器专门针对该算法进行了优化,以高效地执行排序和更新操作。具体流程可能包含:深度缓存维护、排序结果重用、差异检测与更新、以及最终的渲染输出。

关键创新:Neo的关键创新在于其重用-更新排序算法。与传统的从头开始排序的方法不同,Neo利用了时间冗余性,显著减少了排序所需的计算量和内存带宽。此外,针对该算法设计的硬件加速器进一步提高了排序效率。

关键设计:具体的技术细节未知,但可能包括:用于跟踪高斯深度顺序的数据结构(例如,排序链表或树),用于检测深度顺序变化的算法(例如,基于深度阈值的比较),以及用于高效执行排序和更新操作的硬件架构(例如,并行比较器和交换器)。此外,可能还包括一些参数设置,例如深度阈值的大小,以及一些优化策略,例如批量处理高斯。

📊 实验亮点

Neo的实验结果表明,其性能显著优于现有方案。与最先进的边缘GPU相比,Neo的吞吐量提高了高达10.0倍,与ASIC解决方案相比,提高了5.6倍。同时,Neo还显著降低了DRAM流量,与边缘GPU相比降低了94.5%,与ASIC解决方案相比降低了81.3%。这些数据表明,Neo在提高渲染性能和降低功耗方面具有显著优势。

🎯 应用场景

Neo技术可广泛应用于AR/VR设备、移动游戏、机器人视觉等领域,尤其是在需要端侧实时3D渲染的场景中。通过降低计算和内存需求,Neo使得在资源受限的设备上实现高质量、低延迟的3D渲染成为可能,从而提升用户体验,并为新的应用场景打开了大门。未来,该技术有望推动AR/VR设备的普及,并促进相关产业的发展。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) rendering in real-time on resource-constrained devices is essential for delivering immersive augmented and virtual reality (AR/VR) experiences. However, existing solutions struggle to achieve high frame rates, especially for high-resolution rendering. Our analysis identifies the sorting stage in the 3DGS rendering pipeline as the major bottleneck due to its high memory bandwidth demand. This paper presents Neo, which introduces a reuse-and-update sorting algorithm that exploits temporal redundancy in Gaussian ordering across consecutive frames, and devises a hardware accelerator optimized for this algorithm. By efficiently tracking and updating Gaussian depth ordering instead of re-sorting from scratch, Neo significantly reduces redundant computations and memory bandwidth pressure. Experimental results show that Neo achieves up to 10.0x and 5.6x higher throughput than state-of-the-art edge GPU and ASIC solution, respectively, while reducing DRAM traffic by 94.5% and 81.3%. These improvements make high-quality and low-latency on-device 3D rendering more practical.