Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space
作者: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh
分类: cs.CV
发布日期: 2024-08-14 (更新: 2025-02-21)
备注: AAAI 2025. Project page: https://hyunji12.github.io/Open3DRF
💡 一句话要点
提出基于3D空间辐射场的开放词汇分割方法,实现完整3D语义理解
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 辐射场 语义分割 3DGS 开放词汇 神经渲染
📋 核心要点
- 现有NeRFs和3DGS方法在语义理解方面存在不足,其分割结果仅为2D掩码,无法代表完整的3D空间。
- 该论文通过直接监督3D点来训练语言嵌入场,从而实现对3D体素的分割,提升了3D语义理解的完整性。
- 该方法成功将学习到的语言场迁移到3DGS,实现了实时渲染速度,同时保持了训练时间和准确性。
📝 摘要(中文)
本文重新定义了3D场景语义理解问题,旨在对3D体素进行分割,从而克服现有方法仅限于不完整的3D理解的局限性。与以往将监督信息锚定在2D像素上的方法不同,本文直接监督3D点以训练语言嵌入场。该方法将学习到的语言场迁移到3DGS,在不牺牲训练时间或准确性的前提下,实现了首次实时渲染速度。此外,本文还引入了一种3D查询和评估协议,用于评估重建的几何结构和语义信息。代码、检查点和标注可在项目页面上获取。
🔬 方法详解
问题定义:现有基于辐射场的语义理解方法主要通过渲染2D图像并进行分割,然后反投影到3D空间。这种方法存在固有的局限性,即只能理解可见表面的语义,无法对整个3D空间进行推理,导致3D语义理解不完整。此外,缺乏针对3D辐射场分割的有效评估指标。
核心思路:该论文的核心思路是直接在3D空间中进行语义分割,避免了2D投影带来的信息损失。通过学习一个语言嵌入场,将3D空间中的每个点与一个语义向量相关联,从而实现对整个3D体素的分割。此外,通过将学习到的语言场迁移到3DGS,实现了实时渲染。
技术框架:该方法主要包含以下几个阶段:1) 语言嵌入场训练:使用多层感知机(MLP)将3D坐标映射到语言嵌入向量,并使用对比损失函数进行训练,使得相同语义的点在嵌入空间中更接近,不同语义的点更远离。2) 语言场迁移到3DGS:将训练好的语言嵌入场作为3DGS的额外属性,用于指导3DGS的语义分割。3) 3D查询和评估:提出一种新的3D查询和评估协议,用于评估重建的几何结构和语义信息。
关键创新:该方法最重要的创新点在于直接在3D空间中进行语义分割,避免了2D投影带来的信息损失,从而实现了更完整的3D语义理解。此外,将学习到的语言场迁移到3DGS,实现了实时渲染速度,这在之前的研究中尚未实现。
关键设计:在语言嵌入场训练阶段,使用了对比损失函数,该损失函数旨在拉近相同语义的点在嵌入空间的距离,并推远不同语义的点。具体而言,使用了InfoNCE损失。在3DGS迁移阶段,将语言嵌入向量作为3DGS节点的额外属性,并使用MLP进行预测。在3D查询和评估阶段,设计了一套新的评估指标,用于评估重建的几何结构和语义信息。
🖼️ 关键图片
📊 实验亮点
该方法在3D语义分割任务上取得了显著的性能提升,首次实现了基于3DGS的实时开放词汇分割。实验结果表明,该方法在3D语义分割的准确性和效率方面均优于现有方法。此外,提出的3D查询和评估协议为未来的研究提供了新的评估标准。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、增强现实等领域。例如,机器人可以利用该方法理解周围环境的3D语义信息,从而更好地进行路径规划和物体识别。在自动驾驶领域,可以用于场景理解和障碍物检测。在增强现实领域,可以用于创建更逼真的虚拟环境。
📄 摘要(原文)
Understanding the 3D semantics of a scene is a fundamental problem for various scenarios such as embodied agents. While NeRFs and 3DGS excel at novel-view synthesis, previous methods for understanding their semantics have been limited to incomplete 3D understanding: their segmentation results are rendered as 2D masks that do not represent the entire 3D space. To address this limitation, we redefine the problem to segment the 3D volume and propose the following methods for better 3D understanding. We directly supervise the 3D points to train the language embedding field, unlike previous methods that anchor supervision at 2D pixels. We transfer the learned language field to 3DGS, achieving the first real-time rendering speed without sacrificing training time or accuracy. Lastly, we introduce a 3D querying and evaluation protocol for assessing the reconstructed geometry and semantics together. Code, checkpoints, and annotations are available at the project page.