LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

📄 arXiv: 2507.07136v2 📥 PDF

作者: Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister

分类: cs.CV, cs.GR

发布日期: 2025-07-09 (更新: 2025-10-08)

备注: Accepted by NeurIPS 2025. Project Page: https://langsplat-v2.github.io


💡 一句话要点

LangSplatV2:实现450+ FPS高维3D语言高斯溅射,加速开放词汇文本查询。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 3D语言场 稀疏编码 实时渲染 文本查询 CUDA优化 CLIP特征

📋 核心要点

  1. LangSplat虽然利用高斯溅射和CLIP特征提升了3D语言场构建速度,但其推理速度仍不足以支持实时应用,主要瓶颈在于重量级解码器。
  2. LangSplatV2将每个高斯视为全局字典中的稀疏编码,学习3D稀疏系数场,从而避免使用耗时的解码器,显著提升了推理速度。
  3. 实验结果表明,LangSplatV2在保持或提升查询精度的同时,实现了476.2 FPS的高维特征溅射和384.6 FPS的3D文本查询速度。

📝 摘要(中文)

本文介绍了LangSplatV2,它以476.2 FPS的速度实现了高维特征溅射,并以384.6 FPS的速度实现了高分辨率图像的3D开放词汇文本查询,分别比LangSplat提高了42倍和47倍,同时提高了查询精度。LangSplat采用高斯溅射将2D CLIP语言特征嵌入到3D中,显著提高了速度,并利用SAM语义学习了精确的3D语言场。3D语言场的这些进步对于需要在复杂场景中进行语言交互的应用至关重要。然而,即使使用先进的A100 GPU,LangSplat也尚未实现实时推理性能(8.2 FPS),这严重限制了其更广泛的应用。在本文中,我们首先对LangSplat进行了详细的时间分析,确定了重量级解码器是主要的速度瓶颈。我们的解决方案LangSplatV2假设每个高斯函数都充当全局字典中的稀疏代码,从而可以学习3D稀疏系数场,从而完全消除了对重量级解码器的需求。通过利用这种稀疏性,我们进一步提出了一种有效的稀疏系数溅射方法,并进行了CUDA优化,从而以高质量渲染高维特征图,而仅需花费溅射超低维特征的时间成本。我们的实验结果表明,LangSplatV2不仅实现了更好或具有竞争力的查询精度,而且速度也明显更快。代码和演示可在我们的项目页面上找到:https://langsplat-v2.github.io。

🔬 方法详解

问题定义:LangSplat虽然在3D场景中嵌入了语言信息,但其推理速度慢(8.2 FPS)是阻碍其广泛应用的关键问题。主要瓶颈在于需要对每个高斯特征进行解码,计算量大,严重影响了实时性。

核心思路:LangSplatV2的核心思想是将每个高斯函数视为全局字典中的一个稀疏编码。通过学习一个3D稀疏系数场,可以直接利用这些稀疏系数进行特征溅射,从而避免了对高维CLIP特征进行解码的步骤。这种方法利用了特征的稀疏性,极大地降低了计算复杂度。

技术框架:LangSplatV2的整体框架包括以下几个主要步骤:1) 使用高斯溅射表示3D场景;2) 将每个高斯与一个稀疏系数向量关联,该向量表示其在全局字典中的编码;3) 学习一个3D稀疏系数场,该场描述了场景中每个位置的稀疏系数;4) 使用CUDA优化的稀疏系数溅射方法,将稀疏系数场渲染成高维特征图,用于后续的文本查询等任务。

关键创新:LangSplatV2最重要的创新点在于提出了基于稀疏系数场的特征溅射方法,避免了对高维CLIP特征的解码。通过将每个高斯视为稀疏编码,并学习一个3D稀疏系数场,LangSplatV2能够以极高的效率渲染高维特征图。与LangSplat相比,LangSplatV2不再需要耗时的解码器,从而实现了显著的加速。

关键设计:LangSplatV2的关键设计包括:1) 使用稀疏编码来表示高斯特征,降低计算复杂度;2) 设计CUDA优化的稀疏系数溅射方法,充分利用GPU的并行计算能力;3) 通过实验确定合适的稀疏度,以在精度和速度之间取得平衡。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LangSplatV2在速度上取得了显著提升,高维特征溅射速度达到476.2 FPS,3D开放词汇文本查询速度达到384.6 FPS,分别比LangSplat提高了42倍和47倍。同时,LangSplatV2在查询精度上保持了与LangSplat相当甚至更优的性能。这些实验结果表明,LangSplatV2在3D语言场构建方面具有显著的优势。

🎯 应用场景

LangSplatV2的潜在应用领域包括:虚拟现实/增强现实(VR/AR)、机器人导航、3D场景编辑、以及需要语言交互的复杂场景理解任务。该技术能够实现对3D场景的快速文本查询和操作,为用户提供更自然、更直观的交互体验。未来,LangSplatV2有望推动3D场景理解和交互技术的进一步发展。

📄 摘要(原文)

In this paper, we introduce LangSplatV2, which achieves high-dimensional feature splatting at 476.2 FPS and 3D open-vocabulary text querying at 384.6 FPS for high-resolution images, providing a 42 $\times$ speedup and a 47 $\times$ boost over LangSplat respectively, along with improved query accuracy. LangSplat employs Gaussian Splatting to embed 2D CLIP language features into 3D, significantly enhancing speed and learning a precise 3D language field with SAM semantics. Such advancements in 3D language fields are crucial for applications that require language interaction within complex scenes. However, LangSplat does not yet achieve real-time inference performance (8.2 FPS), even with advanced A100 GPUs, severely limiting its broader application. In this paper, we first conduct a detailed time analysis of LangSplat, identifying the heavyweight decoder as the primary speed bottleneck. Our solution, LangSplatV2 assumes that each Gaussian acts as a sparse code within a global dictionary, leading to the learning of a 3D sparse coefficient field that entirely eliminates the need for a heavyweight decoder. By leveraging this sparsity, we further propose an efficient sparse coefficient splatting method with CUDA optimization, rendering high-dimensional feature maps at high quality while incurring only the time cost of splatting an ultra-low-dimensional feature. Our experimental results demonstrate that LangSplatV2 not only achieves better or competitive query accuracy but is also significantly faster. Codes and demos are available at our project page: https://langsplat-v2.github.io.