SLAG: Scalable Language-Augmented Gaussian Splatting

作者: Laszlo Szilagyi, Francis Engelmann, Jeannette Bohg

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-05-12 (更新: 2025-08-17)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

SLAG：一种可扩展的语言增强高斯溅射方法，用于快速嵌入大型场景。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 语言增强 高斯溅射 场景表示 多GPU加速 向量数据库

📋 核心要点

现有语言增强场景表示方法在处理大规模场景时，面临计算资源有限和编码速度慢的挑战。
SLAG通过从3D高斯场景参数中导出语言嵌入，避免了复杂的损失函数计算，实现了高度并行化的场景编码。
实验表明，SLAG在多GPU环境下显著提升了场景嵌入速度，同时保持了嵌入质量，验证了其有效性。

📝 摘要（中文）

本文提出了一种名为SLAG的多GPU框架，用于语言增强的高斯溅射，旨在提高嵌入大型场景的速度和可扩展性。该方法利用SAM和CLIP将2D视觉-语言模型特征集成到3D场景中。与现有方法不同，SLAG无需损失函数来计算每个高斯体的语言嵌入，而是通过归一化加权平均从3D高斯场景参数中导出嵌入，从而实现高度并行化的场景编码。此外，还引入了一个向量数据库，用于高效的嵌入存储和检索。实验结果表明，在16-GPU设置下，SLAG在ScanNet和LERF数据集上，嵌入计算速度比OpenGaussian提高了18倍，同时保持了嵌入质量。

🔬 方法详解

问题定义：现有语言增强的场景表示方法在应用于大规模机器人应用（如搜索救援、智慧城市和采矿）时，面临着时间和数据上的双重挑战。这些场景通常需要快速的场景编码，同时处理大量数据，并且需要在计算资源有限的机器人平台上部署。现有的方法计算复杂度高，难以满足实时性和可扩展性的需求。

核心思路：SLAG的核心思路是通过直接从3D高斯场景参数中导出语言嵌入，避免了传统方法中复杂的损失函数优化过程。具体来说，它利用场景中高斯体的参数（如位置、颜色、不透明度等）进行加权平均，生成每个高斯体的语言嵌入。这种方法可以高度并行化，从而显著提高场景编码的速度。

技术框架：SLAG的整体框架包括以下几个主要步骤：1) 使用SAM和CLIP等视觉-语言模型提取2D图像特征；2) 将2D特征投影到3D高斯场景中；3) 基于高斯体的参数计算加权平均，生成每个高斯体的语言嵌入；4) 将生成的嵌入存储到向量数据库中，以便后续的检索和查询。整个流程可以在多GPU上并行执行，从而提高处理大规模场景的效率。

关键创新：SLAG最关键的创新在于它避免了使用损失函数来计算每个高斯体的语言嵌入。传统的语言增强高斯溅射方法通常需要设计复杂的损失函数，以确保生成的嵌入能够准确地表示场景中的语义信息。而SLAG通过直接从3D高斯场景参数中导出嵌入，简化了计算过程，并实现了高度并行化。

关键设计：SLAG的关键设计包括：1) 使用归一化加权平均来计算语言嵌入，其中权重基于高斯体的参数（如不透明度）；2) 采用向量数据库来高效地存储和检索嵌入；3) 利用多GPU并行计算来加速场景编码过程。具体参数设置和网络结构细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

SLAG在ScanNet和LERF数据集上的实验结果表明，在16-GPU设置下，其嵌入计算速度比OpenGaussian提高了18倍，同时保持了嵌入质量。这一显著的性能提升表明SLAG在处理大规模场景时具有很强的优势。具体的量化指标（如嵌入质量的评估指标）未在摘要中详细说明，属于未知信息。

🎯 应用场景

SLAG具有广泛的应用前景，尤其是在需要快速和可扩展的场景理解的机器人应用中。例如，在搜索救援任务中，机器人可以利用SLAG快速编码现场环境，并结合语言指令进行目标搜索。在智慧城市和采矿等领域，SLAG可以用于构建大规模的场景地图，并支持基于语言的导航和交互。该研究有望推动机器人技术在复杂环境中的应用。

📄 摘要（原文）

Language-augmented scene representations hold great promise for large-scale robotics applications such as search-and-rescue, smart cities, and mining. Many of these scenarios are time-sensitive, requiring rapid scene encoding while also being data-intensive, necessitating scalable solutions. Deploying these representations on robots with limited computational resources further adds to the challenge. To address this, we introduce SLAG, a multi-GPU framework for language-augmented Gaussian splatting that enhances the speed and scalability of embedding large scenes. Our method integrates 2D visual-language model features into 3D scenes using SAM and CLIP. Unlike prior approaches, SLAG eliminates the need for a loss function to compute per-Gaussian language embeddings. Instead, it derives embeddings from 3D Gaussian scene parameters via a normalized weighted average, enabling highly parallelized scene encoding. Additionally, we introduce a vector database for efficient embedding storage and retrieval. Our experiments show that SLAG achieves an 18 times speedup in embedding computation on a 16-GPU setup compared to OpenGaussian, while preserving embedding quality on the ScanNet and LERF datasets. For more details, visit our project website: https://slag-project.github.io/.

SLAG: Scalable Language-Augmented Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理