LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds

作者: Jaehun Bang, Jinhyeok Kim, Minji Kim, Seungheon Jeong, Kyungdon Joo

分类: cs.CV

发布日期: 2026-03-25

备注: Accepted to CVPR 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

LightSplat：快速且内存高效的开放词汇三维场景理解框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 三维场景理解 开放词汇分割 高斯溅射 语义索引 单步聚类

📋 核心要点

现有开放词汇三维场景理解方法速度慢、内存占用高，且由于迭代优化和密集的单高斯特征分配而过于复杂。
LightSplat通过注入紧凑的语义索引到三维表示中，并采用轻量级索引-特征映射，避免了昂贵的特征优化和存储开销。
实验结果表明，LightSplat在速度和内存效率方面显著优于现有方法，并在多个数据集上实现了最先进的性能。

📝 摘要（中文）

本文提出LightSplat，一个快速且内存高效的训练自由框架，用于开放词汇三维场景理解。该方法通过将紧凑的2字节语义索引注入多视图图像的三维表示中来实现。LightSplat仅将语义索引分配给显著区域，并通过轻量级的索引-特征映射进行管理，从而消除了昂贵的特征优化和存储开销。此外，通过单步聚类连接几何和语义相关的三维掩码，确保了语义一致性和高效推理。在LERF-OVS、ScanNet和DL3DV-OVS等复杂室内外场景上的评估表明，LightSplat实现了最先进的性能，速度提升高达50-400倍，内存占用降低64倍，从而实现了可扩展的语言驱动三维理解。

🔬 方法详解

问题定义：现有开放词汇三维场景理解方法面临速度慢、内存占用高的问题。这些方法通常依赖于迭代优化和密集的单高斯特征分配，导致计算成本高昂，难以应用于大规模场景。此外，存储每个高斯分布的特征也带来了巨大的内存开销。

核心思路：LightSplat的核心思路是通过将紧凑的语义索引注入到三维表示中，并采用轻量级的索引-特征映射来解决上述问题。这种方法避免了昂贵的特征优化和存储开销，同时实现了高效的语义分割。通过单步聚类连接几何和语义相关的三维掩码，确保了语义一致性。

技术框架：LightSplat的整体框架包括以下几个主要阶段：1) 从多视图图像中提取三维表示（例如，使用高斯溅射）；2) 将语义索引分配给三维表示的显著区域；3) 使用轻量级的索引-特征映射管理语义索引；4) 通过单步聚类连接几何和语义相关的三维掩码，实现语义分割。

关键创新：LightSplat最重要的技术创新点在于其轻量级的语义索引注入和管理机制。与现有方法相比，LightSplat避免了昂贵的特征优化和存储开销，从而实现了显著的速度提升和内存占用降低。此外，单步聚类方法也提高了语义分割的效率和准确性。

关键设计：LightSplat的关键设计包括：1) 使用2字节的紧凑语义索引；2) 仅将语义索引分配给显著区域；3) 采用轻量级的索引-特征映射；4) 使用单步聚类算法连接几何和语义相关的三维掩码。具体的参数设置和损失函数等技术细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

LightSplat在LERF-OVS、ScanNet和DL3DV-OVS等数据集上取得了显著的性能提升。与现有方法相比，LightSplat的速度提升高达50-400倍，内存占用降低64倍。例如，在LERF-OVS数据集上，LightSplat实现了最先进的性能，同时保持了极高的效率。

🎯 应用场景

LightSplat具有广泛的应用前景，包括机器人导航、自动驾驶、虚拟现实、增强现实、三维场景重建等领域。该方法可以帮助机器人理解周围环境，从而实现更智能的导航和交互。在自动驾驶领域，LightSplat可以用于识别和分割道路上的各种物体，提高驾驶安全性。在虚拟现实和增强现实领域，LightSplat可以用于创建更逼真的三维场景，提高用户体验。

📄 摘要（原文）

Open-vocabulary 3D scene understanding enables users to segment novel objects in complex 3D environments through natural language. However, existing approaches remain slow, memory-intensive, and overly complex due to iterative optimization and dense per-Gaussian feature assignments. To address this, we propose LightSplat, a fast and memory-efficient training-free framework that injects compact 2-byte semantic indices into 3D representations from multi-view images. By assigning semantic indices only to salient regions and managing them with a lightweight index-feature mapping, LightSplat eliminates costly feature optimization and storage overhead. We further ensure semantic consistency and efficient inference via single-step clustering that links geometrically and semantically related masks in 3D. We evaluate our method on LERF-OVS, ScanNet, and DL3DV-OVS across complex indoor-outdoor scenes. As a result, LightSplat achieves state-of-the-art performance with up to 50-400x speedup and 64x lower memory, enabling scalable language-driven 3D understanding. For more details, visit our project page https://vision3d-lab.github.io/lightsplat/.

LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理